Optimum Linear Quadratic Control

33

Transcript of Optimum Linear Quadratic Control

Introduzione al

Controllo Ottimo Lineare Quadratico

Laureando: Gottardo Giuseppe

Relatore: Beghi Alessandro

Corso di Laurea in Ingegneria dell'Automazione

28 Settembre 2009

Anno Accademico: 2008/2009

1

INDICE

Indice

1 Introduzione 5

1.1 Argomenti trattati . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Il Controllo Ottimo Lineare . . . . . . . . . . . . . . . . . . . . . 5

2 Equazione di Hamilton-Jacobi e sua soluzione 6

2.1 Il problema del regolatore . . . . . . . . . . . . . . . . . . . . . . 6

2.2 L'equazione di Hamilton-Jacobi . . . . . . . . . . . . . . . . . . . 8

3 Equazione di Riccati e costruzione del regolatore 11

3.1 Ottimizzazione su orizzonte �nito . . . . . . . . . . . . . . . . . . 11

3.2 Ottimizzazione su orizzonte in�nito . . . . . . . . . . . . . . . . . 12

3.3 Caso di sistema tempo-invariante . . . . . . . . . . . . . . . . . . 13

3.4 Stabilità del controllore tempo-invariante . . . . . . . . . . . . . 14

3.5 Presenza di prodotti incrociati nell'indice di costo . . . . . . . . . 15

3.6 Regolatore con uno speci�co grado di stabilità . . . . . . . . . . . 16

4 Sistemi di tracking 18

4.1 L'inseguimento di una traiettoria desiderata . . . . . . . . . . . . 18

4.2 Applicazioni a tempo �nito . . . . . . . . . . . . . . . . . . . . . 19

4.2.1 Servo problem . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2.2 Model-following (servo) problem . . . . . . . . . . . . . . 22

4.2.3 Tracking problem . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.4 Model following tracking problem . . . . . . . . . . . . . . 24

4.3 Applicazioni a tempo in�nito . . . . . . . . . . . . . . . . . . . . 24

4.3.1 Tracking problem a tempo in�nito . . . . . . . . . . . . . 24

4.3.2 Tecniche di tracking sub-ottimo . . . . . . . . . . . . . . . 26

4.3.3 Servo problem a tempo in�nito . . . . . . . . . . . . . . . 28

4.3.4 Principio del modello interno e inseguimento a errore nullo 28

4.3.5 Model following con risposta a gradino . . . . . . . . . . . 29

3

1 INTRODUZIONE

1 Introduzione

1.1 Argomenti trattati

Questa tesi vuole presentare un'introduzione al Controllo Ottimo Lineare. Dopoaver presentato il problema e lo scopo che si pre�gge questo tipo di controllo,si passa alla traduzione in termini matematici delle speci�che richieste al con-trollore. Successivamente si analizza l'equazione di Hamilton-Jacobi e quella diRiccati per la risoluzione di questi problemi. Si studia inoltre la stessa proble-matica di controllo anche su intervalli di tempo in�niti, con attenzione ancheai vari gradi di stabilità che si possono ottenere. In�ne si considera il problemadell'inseguimento basato sulla costruzione di un controllore ottimo.

1.2 Il Controllo Ottimo Lineare

Il Controllo Ottimo è una branca fondamentale del controllo moderno che svilup-pa un modello analitico molto interessante. Il sistema risultante da questa teorianon è semplicemente ipotizzato che sia stabile, o abbia una certa larghezza dibanda, o soddis� dei vincoli associati con il controllo classico ma si suppone chesia il sistema migliore possibile per un certo �ne, da questo appunto la parolaottimo.

Il Controllo ottimo lineare è un tipo di controllo ottimo dove si assume che ilprocesso da controllare sia lineare e il controllore, che genera il controllo ottimo, èvincolato anch'esso ad essere lineare. Il controllore lineare si ottiene impostandodegli indici di costo quadratici come verrà precisato meglio in seguito.

Di seguito si elencano alcuni vantaggi nell'uso del controllo ottimo lineare:

• tutti i problemi di controllo ottimo lineare hanno soluzione;

• i risultati del controllo ottimo lineare possono essere applicati anche asistemi non lineari che operano su piccoli segnali;

• le procedure di calcolo per il progetto ottimo lineare derivano da problemiottimi non lineari;

• i progetti di controllo ottimo lineare nei quali gli stati del processo sonomisurabili possiedono anche un certo numero di proprietà, oltre alla sem-plice ottimizzazione di un indice di costo. Una di queste molto interessanteè la robustezza che permette talvolta di utilizzare controllori progettati perun sistema lineare applicati a processi non lineari.

5

2 Equazione di Hamilton-Jacobi e sua soluzione

2.1 Il problema del regolatore

Consideriamo il seguente sistema in spazio di stato:

{x(t) = F (t)x(t) +G(t)u(t)y(t) = H ′(t)x(t)

(2.1.1)

Qui, F (t), G(t) e H(t) sono matrici in funzione del tempo generalmente coningressi continui. Se le loro dimensioni sono rispettivamente n×n, n×m, n×p,il vettore x(t) è di dimensione n e indica lo stato del sistema al tempo t, ilvettore u(t) di dimensione m è l'ingresso del sistema, o meglio, il suo controlloal tempo t, e p è la dimensione del vettore y(t), l'uscita del sistema al tempo t.Usualmente nel controllo classico vengono presi in esame sistemi SISO (SingleInput Single Output) quindi u(t) e y(t) divengono scalari e g(t) e h(t) diventanovettori. Inoltre i sistemi considerati sono normalmente tempo-invarianti cioèu(t) e y(t) per uno stato iniziale a zero sono connessi da una risposta all'impulsotempo-invariante. A questo proposito le matrici F (t), g(t) e h(t) sono costantinel tempo. La descrizione del sistema avviene anche attraverso la sua funzionedi trasferimento che si denota come W (s) essendo una trasformata di Laplace.Essa è connessa con le matrice appena descritte come segue:

W (s) = H ′(sI − F )−1G (2.1.2)

Il controllo di un processo ha principalmente due scopi:misure di riferimentopossono essere:

1. La regolazione. Questa richiede la progettazione di un controllo che portiil sistema da uno stato iniziale diverso da zero ad uno stato �nale nullo.Questo tipo di problematiche si possono incontrare su processi soggetti adisturbi non desiderati presenti all'uscita.

2. Problemi di tracking. In alcuni casi si desidera che il processo insegua unafunzione o una traiettoria prescritta.

Si concentra l'attenzione sulla regolazione quindi si suppone che non siano ap-plicati ingressi esterni. Usando la teoria classica del controllo si fa uso di unfeedback dell'uscita e di segnali derivati da esso per generare il controllo. Ilcontrollore con una sua funzione di trasferimento viene interposto tra l'uscita el'ingresso del processo. Nel controllo ottimo che qui viene trattato si supponeche le variabili di stato del processo siano disponibili e misurabili. Talvolta, sequesto non è possibile, si ricorre alla costruzione di uno stimatore dello statocon risultati dipendenti dall'ingresso e dall'uscita del processo. La legge di con-trollo può essere scritta come u(t) = k(x(t), t) per indicare la dipendenza di u(t)da x(t) e t. In particolare si può restringere la scelta sulla più semplice leggedi controllo lineare u(t) = K ′(t)x(t) per una certa matrice K di appropriatedimensioni.

Lo scopo principale della costruzione del controllore è quello di portare unostato arbitrariamente diverso da zero allo stato nullo il più velocemente possibile.

6

2 EQUAZIONE DI HAMILTON-JACOBI E SUA SOLUZIONE

Dalla teoria dei sistemi si evince che se in un sistema le matrici F e G sonocostanti e la coppia [F,G] è completamente controllabile allora si può ottenerequesto risultato. Ciò vuol dire che dato il sistema in (2.1.1), gli stati arbitrarix0, x1 e gli istanti t0, t1 con t0 < t1, esiste un controllo che porta il sistema dallostato x0 nell'istante t0 allo stato x1 nell'istante t1. Teoricamente l'intervallo T =t1−t0 può essere scelto arbitrariamente piccolo. Ci sono però due considerazioniimportanti da fare:

• Più T diminuisce, più aumenta la quantità di energia spesa per il controllo;

• Non sempre può essere costruita una legge di controllo lineare soprattuttose T diminuisce.

In relazione al primo punto si può pensare di limitare la grandezza di controlloanche durante il corso dell'azione di regolazione. Alcune misure di riferimentopossono essere:

´ Tt0u′(t)u(t)dt,

´ Tt0

[u′(t)u(t)]1/2dt, maxt∈[t0,T ]

||u(t)||

o ˆ T

t0

u′(t)R(t)u(t)dt (2.1.3)

dove R(t) è una matrice de�nita positiva per ogni t, che, senza perdere digeneralità, può essere presa simmetrica.

Riconoscendo che a �ni ingegneristici non interessa che il sistema raggiungae�ettivamente lo stato zero ma basta che lo stato misurato secondo una nor-ma diventi piccolo, �ssato il tempo T dell'evoluzione dello stato, si richiedeche x′(T )Ax(T ) sia piccolo, per una A de�nita positiva (Sarà possibile rilas-sare questa condizione con A de�nita non negativa). Inoltre è molto utile dalpunto di vista del controllo che ||x(t)|| resti piccolo per ogni t dell'intervalloin cui viene applicato il controllo e si può esprimere questo richiedendo che´ Tt0x′(t)Q(t)x(t)dt sia piccola dove Q(t) è una matrice simmetrica de�nita posi-

tiva. (In alcuni casi trattati in seguito sarà su�ciente che Q(t) sia de�nita nonnegativa).

Nel de�nire i vincoli ottimi per la regolazione, si deve tener conto in pri-mo luogo che il problema così posto possa essere risolto e in secondo luogo chequesta soluzione porti alla costruzione di un controllore ottimo che si presta al-l'implementazione quindi preferibilmente lineare. Nell'ottimizzazione, con indiciquadratici e vincoli lineari, la proprietà di linearità è conservata.

Per esempio si consideri la minimizzazione degli indici appena presentatiattraverso la scelta di u0. L'indice diventa x

1Qx1 +u′

0Ru0 con x1 = Fx0 +Gu0

e x0 �ssato. Dopo alcuni calcoli si arriva all'espressione di u0 = −(G′QG +

R)−1G′QFx0, dove si può vedere che u0 dipende linearmente da x0.

Concludendo, si può ottenere una legge di controllo lineare se per il sistemain (2.1.1) si cerca di minimizzare l'indice di costo quadratico

V (x(t0), u(·), t0) =ˆ T

t0

(u′Ru+ x′Qx)dt+ x′(T )Ax(T ) (2.1.4)

7

2.2 L'equazione di Hamilton-Jacobi

Come mostra la formula precedente, essa dipende dallo stato iniziale x(t0),dal tempo t0, e dal controllo nell'intervallo [t0,T ]. Il termine �quadratico� sotto-linea il fatto che l'indice è una funzione quadratica del vettore di stato x e delvettore di controllo u. Le matrici R, Q, A sono scelte simmetriche.

Il problema può essere riassunto come segue:Si consideri il sistema in (2.1.1) dove gli ingressi di F (t) e G(t) siano con-

tinui. Le matrici Q(t) e R(t) abbiano entrate continue, siano simmetriche, erispettivamente siano de�nite non negativa e positiva. A sia una matrice sim-metrica de�nita non-negativa. Si de�nisce indice di costo V (x(t0), u(·), t0) comein (2.1.4) e il problema di minimizzazione consiste nel trovare il controllo ot-timo u∗(t), t ∈ [t0,T ], che minimizza V , e l'associato indice di costo ottimoV ∗(x(t0), t0) che è il valore di V ottenuto utilizzando il controllo ottimo. A se-conda che T sia �nito o in�nito il problema sopra esposto viene detto a orizzonte�nito o in�nito.

2.2 L'equazione di Hamilton-Jacobi

Si consideri il sistema non lineare e invariante in cui f è continua e derivabilerispetto ai suoi argomenti.

x = f(x(t), u(t), t) x(t0) data (2.2.1)

Per questo sistema, supponendo di essere all'istante iniziale t0 e ipotizzandoche lo stato x sia misurabile, si vuole trovare un controllo ottimo u∗(t), t ∈[t0, T ], che minimizza il funzionale di costo

V (x(t0), u(·), t0) =ˆ T

t0

l(x(τ), u(τ), τ)dτ +m(x(T )) (2.2.2)

Si de�nisce u[a,b] che indica la funzione u(·) ristretta all'intervallo [a, b].Inoltre si indica con

V ∗(x(t), t) = minu[t,T ]

V (x(t), u(·), t) (2.2.3)

il minimo valore che l'indice di costo (2.2.2) assume se il sistema parte nellostato x(t) al tempo t. Come si può vedere V ∗(x(t), t) è indipendente da u(·)in quanto quest'ultimo è �ssato al valore ottimo, noti x(t), t e il funzionale dicosto.

Si consideri un istante t arbitrario nell'intervallo [t0, T ] e t1 nell'intervallo[t, T ], inoltre u[t,T ] è la concatenazione di u[t,t1] e u[t1,T ], quindi minimizzare suu[t,T ]è come minimizzare su u[t,t1] e u[t1,T ]. Allora:

V ∗(x(t), t) = minu[t,T ]

[´ Ttl(x(τ), u(τ), τ)dτ +m(x(T ))

]

= minu[t,t1]

{minu[t1,T ]

[´ t1tl(x(τ), u(τ), τ)dτ +

´ Tt1l(x(τ), u(τ), τ)dτ +m(x(T ))

]}dove il primo addendo è indipendente da u[t1, T ] e il secondo addendo è essostesso un indice di costo. Quindi

8

2 EQUAZIONE DI HAMILTON-JACOBI E SUA SOLUZIONE

V ∗(x(t), t) = minu[t,t1]

{´ t1tl(x(τ), u(τ), τ)dτ

+ minu[t1,T ]

[´ Tt1l(x(τ), u(τ), τ)dτ +m(x(T ))

]}o

V ∗(x(t), t) = minu[t,t1]

[ˆ t1

t

l(x(τ), u(τ), τ)dτ + V ∗(x(t1), t1)]

(2.2.4)

L'equazione (2.2.4) è un'espressione del principio di ottimalità. Per chiarezzasi considerino alcune traiettorie risultanti da controlli diversi, tutte con originein x(t) all'istante t. Le traiettorie nell'intervallo [t, t1] sono arbitrarie. Si sup-ponga che nell'intervallo [t1,T ] il controllo sia ottimo quindi il costo che si hanell'attraversare l'intervallo da xi(t1) a xi(T ) è V ∗(xi(t1), t1) per ogni traietto-ria i. Ciò che (2.2.4) a�erma è che il costo ottimo delle traiettorie che inizianoin t e �niscono in T è costruito minimizzando la somma del costo nel passare axi(t1), e il costo ottimo oltre quello. Più chiaramente, la soluzione ottima delsotto problema che inizia in (xi(t1), t1) è la parte �nale della traiettoria dellasoluzione ottima del problema originario totale in [t, T ].

La (2.2.4) può essere riscritta considerando t1 = t + ∆t con ∆t piccolo. Siapplica il teorema di Taylor per espandere il secondo membro dell'equazione,sotto le opportune ipotesi di di�erenziabilità esposte inizialmente, e risulta

V ∗(x(t), t) = minu[t,t+∆t]

{∆t l(x(t+ α∆t), u(t+ α∆t), t+ α∆t)

+V ∗(x(t), t) +[∂V ∗

∂t (x(t), t)]′

dx(t)dt ∆t+ ∂V ∗

∂t (x(t), t)∆t+O(∆t)2

}

con α costante tra 0 e 1. Inoltre

∂V ∗

∂t(x(t), t) = − min

u[t,t+∆t]

{l(x(t+ α∆t), u(t+ α∆t), t+ α∆t) (2.2.5)

+[∂V ∗

∂x (x(t), t)]′f(x(t), u(t), t) +O(∆t)

}

se ∆t tende a zero, si arriva a

∂V ∗

∂t (x(t), t) = −minu(t)

{l(x(t), u(t), t) +

[∂V ∗

∂x (x(t), t)]′f(x(t), u(t), t)

}poiché f ed l sono funzioni dei loro argomenti conosciute mentre V ∗ è scono-sciuta, la formula sopra si può riscrivere come

9

2.2 L'equazione di Hamilton-Jacobi

∂V ∗

∂t= −min

u(t)

[l(x(t), u(t), t) +

∂V ∗

∂x

f(x(t), u(t), t)

](2.2.6)

Il valore di u(t) che minimizza il secondo membro della (2.2.6) dipende anchedai valori di x(t), ∂V ∗/∂x, e t: esso verrà indicato con u(x(t), ∂V ∗/∂x, t). Loscopo è quello di esprimere il controllo ottimo come una funzione esplicita dellevariabili x(t) e t. Con la de�nizione di u appena data la (2.2.6) diventa

∂V ∗

∂t= −l

[x(t), u(x(t),

∂V ∗

∂x, t), t

]− ∂V ∗

∂x

f

[x(t), u(x(t),

∂V ∗

∂x, t), t

](2.2.7)

L'ultima è un'equazione di�erenziale del primo ordine dove solo la V ∗ è la varia-bile dipendente mentre il resto sono tutte funzioni conosciute dei loro argomenti.Per la risoluzione della (2.2.7) abbiamo bisogno di una condizione al contorno.Facendo riferimento all'indice di costo (2.2.2) si ha che V ∗(x(T ), u(·), T ) =m(x(T )) per tutti gli u(·) e il minimo valore dell'indice di costo è m(x(T )).Quindi

V ∗(x(T ), T ) = m(x(T )) (2.2.8)

La (2.2.7) e la (2.2.8) sono le equazioni di Hamilton-Jacobi e rappresentanoil punto di partenza per la formulazione e la soluzione di molti problemi dicontrollo.

Alla luce di quanto appena a�ermato, per trovare la soluzione del problemadi ottimizzazione è necessario seguire alcuni passi:

1. Si determina il valore di u che rende minimo il membro destro della (2.2.6)nell'ipotesi che questa esista.

2. Per completare il progetto si deve determinare la funzione V ∗(x(t), t) chesoddisfa la (2.2.7) con la condizione al contorno (2.2.8).

10

3 EQUAZIONE DI RICCATI E COSTRUZIONE DEL REGOLATORE

3 Equazione di Riccati e costruzione del regolatore

3.1 Ottimizzazione su orizzonte �nito

Si ipotizza per adesso che l'estremo �nale T dell'indice di costo sia �nito. Permotivi che saranno più chiari successivamente si fa riferimento al fatto cheV ∗(x(t), t) sia una forma quadratica e quindi possa essere riscritta come:

V ∗(x(t), t) = x′(t)P (t)x(t) (3.1.1)

dove P (t) è simmetrica. (Se P (t) non lo fosse, essa può essere sostituita dallamatrice simmetrica 1

2 [P (t) + P ′(t)] senza alterare la (3.1.1)).Usando l'equazione di Hamilton-Jacobi

∂V ∗

∂t(x(t), t) = −min

u(t)

{l(x(t), u(t), t) +

[∂V ∗

∂x(x(t), t)

]′f(x(t), u(t), t)

}(3.1.2)

si sostituisce a l(x(t), u(t), t) il termine u′(t)R(t)u(t)+x′(t)Q(t)x(t), [∂/∂x(x(t), t)]′

diventa 2x′(t)P (t) dalla (3.1.1), e f(x(t), u(t), t) è F (t)x(t) +G(t)u(t). Il primomembro della (3.1.2) diventa semplicemente x′(t)P (t)x(t). Quindi l'equazione(3.1.2) diventa

x′P x = −minu(t)

[u′Ru+ x′Qx+ 2x′PFx+ 2x′PGu] (3.1.3)

Per trovare il minimo nell'espressione appena riportata si usa l'identità

u′Ru+ x′Qx+ 2x′PFx+ 2x′PGu = (u+R−1G′Px)′R(u+R−1G′Px)

+x′(Q− PGR−1G′P + PF + F ′P )x

Poiché la matrice R(t) è de�nita positiva segue che la (3.1.3) è minimizzatascegliendo

u(t) = −R−1(t)G′(t)P (t)x(t) (3.1.4)

in questo caso, sostituendo l'ultimo risultato alla (3.1.3) si ottiene

− P (t) = P (t)F (t) + F ′(t)P (t)− P (t)G(t)R−1(t)G′(t)P (t) +Q(t) (3.1.5)

dove si è potuto sempli�care lo stato avendo fatto l'ipotesi iniziale di simmetriasu P (t).

L'equazione (3.1.5) è chiamata equazione di Riccati per la quale è necessariauna condizione al contorno

P (T, T ) = A (3.1.6)

che si ricava direttamente dalla (2.2.8) con un passaggio analogo a quello espostoappena sopra.

Come accennato nella (3.1.4) si può arrivare a de�nire una legge di feedbacklineare come controllo ottimo.

11

3.2 Ottimizzazione su orizzonte in�nito

u∗(t) = −K ′x(t) = −R−1(t)G′(t)P (t, T )x(t) (3.1.7)

Nei sistemi discreti con un procedimento analogo a quello appena esposto siarriva a de�nire la matrice P (t) e il controllo ottimo lineare u∗(t).

3.2 Ottimizzazione su orizzonte in�nito

Si abbandona in seguito la restrizione imposta nel capitolo precedente su Tipotizzando che quest'ultimo tenda all'in�nito T = ∞. Si consideri anche quiil sistema x(t) = F (t)x(t) + G(t)u(t) con x(t0) dato e F (t), G(t) con entratecontinue nel tempo. Inoltre le matrici Q(t) e R(t) abbiano entrate continue,siano simmetriche e de�nite non-negativa e positiva rispettivamente. L'indicedi costo che si considera è

V (x(t0), u(·), t0) =ˆ ∞t0

(u′(t)R(t)u(t) + x′(t)Q(t)x(t))dt (3.2.1)

dove lo scopo è trovare un controllo ottimo u∗(t), t ≥ t0, che minimizza V el'associato indice ottimo di costo V ∗(x(t0), t0).

Se per T �nito il problema di ottimo è sempre risolvibile, per T =∞ l'indiceV può non essere �nito.

Assunzione. A questo proposito si assume che il sistema sia completamentecontrollabile in ogni istante t.

Si considera P (t, T ) come soluzione dell'equazione

− P = PF + F ′P − PGR−1G′P +Q (3.2.2)

con la condizione al contorno P (T, T ) = 0. Quindi limT→∞

P (t, T ) = P (t) esiste

per ogni t ed è soluzione della precedente equazione. Inoltre x′(t)P (t)x(t) =V ∗(x(t), t) e il controllo ottimo al tempo t con tempo iniziale arbitrario è

u∗(t) = −R−1(t)G′(t)P (t)x(t) (3.2.3)

Per a�ermare quanto detto sopra si devono dimostrare l'esistenza di P (t),il fatto che essa sia una soluzione della (3.2.2), la formula per l'indice di costoottimale V ∗ e quella del controllo ottimo. In questa sede si fa riferimento soloalla dimostrazione dell'esistenza di P (t) mentre le altre dimostrazioni vengonoomesse.

L'assunzione fatta assicura che per il sistema in considerazione esiste altempo t un controllo u(·) che trasferisce lo stato x(t) allo stato zero al tem-po t2. Sebbene u(·) sia de�nito inizialmente solo tra t e t2, si estende la suade�nizione all'intervallo [t,∞], assumendo che u(·) sia 0 dopo t2. La scritturaV (x(t), u(·), t, T ) si usa per denotare l'indice di costo risultante dallo stato ini-ziale x(t) al tempo t, con ingresso u(·) e tempo �nale T che è �nito. AlloraP (t, T ) esiste per tutti i T e t ≤ T . Poiché l'indice di costo è l'integrale di unaquantità non negativa, P (t, T ) è anch'essa simmetrica de�nita non-negativa.Inoltre

x′(t)P (t, T )x(t) = V ∗(x(t), t, T )

≤ V (x(t), u[t,T ], t, T ) ≤ V (x(t), u[t,∞], t,∞) = V (x(t), u[t,t2], t, t2) <∞

12

3 EQUAZIONE DI RICCATI E COSTRUZIONE DEL REGOLATORE

3.3 Caso di sistema tempo-invariante

Di interesse particolare risulta il caso nel quale processi tempo-invarianti dianoluogo ad una legge di controllo lineare tempo-invariante (LTI).

u(t) = K ′x(t) (3.3.1)

Per l'ottimizzazione su un orizzonte �nito T non c'è nessuna scelta di T ,R(·), e Q(·) che porti ad una legge di controllo tempo invariante quando G eF sono costanti, a meno che la matrice A non prenda degli speci�ci valori. Nelcaso invece di un problema con orizzonte in�nito si può giungere ad una leggedi controllo costante.

Si consideri il sistema LTI x = Fx+Gu con x(t0) data dove F e G sono sceltecostanti. Si prendano anche le matrici costanti Q ed R de�nita non-negativa epositiva, rispettivamente. Si de�nisce così l'indice di costo

V (x(t0), u(·), t0) =ˆ ∞t0

(u′Ru+ x′Qx)dt (3.3.2)

e lo scopo del problema è trovare il controllo ottimo u∗(·) che minimizza Vportando all'indice di costo ottimo.

Per rendere risolvibile il problema è necessario fare un'assunzione rilassandoquella sulla controllabilità già fatta per il caso generale su orizzonte in�nito.

Assunzione. Infatti si richiede che il sistema sia completamente stabilizzabile.

Fatto ciò, P (t, T ) sia la soluzione dell'equazione (3.2.2) con condizione ini-ziale P (T, T ) = 0. Inoltre lim

T→∞P (t, T ) = P (t) esiste ed è costante e P =

limt→−∞

P (t, T ) perché la funzione dentro l'integrale non è dipendente dal tempo.

Inoltre P soddisfa l'equazione (3.2.2) che diventa:

PF + F ′P − PGR−1G′P +Q = 0 (3.3.3)

e x′(t)P x(t) è l'indice di costo ottimale quando il tempo iniziale è t con x(t)stato iniziale. Il controllo ottimo al tempo t è dato dalla legge di controllo linearee costante

u∗(t) = −R−1G′P x(t) (3.3.4)

In seguito si dimostra il motivo per cui la condizione di controllabilità peril sistema tempo-variante può essere rilassata alla condizione di stabilizzabilitàcon F e G costanti in un sistema tempo-invariante. Se si assume che il sistemasia stabilizzabile allora esiste una legge di controllo in feedback u(t) = K ′x(t)che porta il sistema x(t) = (F +GK ′)x(t) ad essere asintoticamente stabile.

Quindi

x′(t)P (t, T )x(t) ≤ V (x(t), u[t,∞], t,∞) <∞

che prova l'esistenza di P (t).Inoltre lim

T→∞P (t, T ) esiste sicuramente. Essendo il processo tempo-invariante

e le funzioni dentro l'integrale nell'indice di costo non dipendenti dal tempo, il

13

3.4 Stabilità del controllore tempo-invariante

tempo iniziale può essere scelto in modo arbitrario e quindi limT→∞

P (t, T ) = P (t)

è indipendente da t e può essere indicato anche come P . Inoltre, per i motiviappena riportati:

P = limT→∞

P (t, T ) = limT→∞

P (0, T − t) = limt→−∞

P (0, t− T ) = limt→−∞

P (t, T )

3.4 Stabilità del controllore tempo-invariante

Si vuole prendere in considerazione le proprietà di stabilità del sistema in catenachiusa al quale è stato applicato il controllo ottimo derivato dall'ottimizzazionesu orizzonte in�nito dell'indice di costo. Si prende in considerazione il solitosistema LTI x = Fx + Gu e l'indice di costo con Q de�nita non-negativa e Rde�nita positiva.

V (x(t0), u(·), t0) =ˆ ∞t0

(u′Ru+ x′Qx)dt (3.4.1)

L'indice ottimo di costo è x′(t0)P x(t0) dove P è la soluzione dell'equazionealgebrica di Riccati

PF + F ′P − PGR−1G′P +Q = 0 (3.4.2)

Il controllo ottimo è dato da

u∗(t) = −R−1G′P x (3.4.3)

ed il sistema in catena chiusa diventa

x = (F −GR−1G′P )x (3.4.4)

Della (3.4.4) si pone il problema della asintotica stabilità. Certamente ilsistema così regolato non è sempre stabile. Basti considerare l'esempio in cuix = x + u con V =

´∞t0u2dt. Si nota immediatamente che il controllo ottimo

è u ≡ 0 e il sistema a catena chiusa diviene semplicemente x = x, ovviamenteinstabile. Si riscontrano quindi due fattori che contribuiscono a creare di�coltànel garantire la stabilità:

1. Il sistema originale a catena aperta instabile.

2. Le traiettorie instabili non danno contributo in nessun modo nell'indice dicosto o, equivalentemente, gli stati instabili non sono osservabili dall'indicedi costo.

Si capisce che per garantire la stabilità asintotica del sistema a catena chiusa sidevono prevenire i casi 1 e 2. A questo proposito è necessario introdurre unaulteriore assunzione:

Assunzione. La coppia [F,D] è rivelabile (l'eventuale parte dello stato nonosservabile è asintoticamente stabile, proprietà duale della stabilizzabilità),dove D è qualsiasi matrice tale che DD′ = Q.

14

3 EQUAZIONE DI RICCATI E COSTRUZIONE DEL REGOLATORE

Quest'ultima assicura che tutte le potenziali traiettorie instabili siano pesatenel fattore x′Qx nell'integrale dell'indice di costo. Poiché quest'ultimo a prioriè �nito, è così possibile teoricamente che le traiettorie potenzialmente instabilisiano stabilizzate dall'applicazione del controllo in catena chiusa.

Riassumendo quanto detto: Per un problema di ottimizzazione su di un tem-po di orizzonte �nito con un sistema tempo-invariante parametrizzato tramiteF , G, Q = DD′ e R = R′ > 0, si può costruire un sistema ottimo in cate-na chiusa stabile con un indice di costo �nito se e solo se la coppia [F,G] èstabilizzabile e la coppia [F,D] è rivelabile. Il sistema così costruito è sempretempo-invariante.

Con considerazioni analoghe a quelle �n qui riportate si può ottenere anchenel caso di un sistema discreto un regolatore tempo-invariante con una legge dicontrollo ottimo costante:

u∗ = −[G′SG+R]−1G′SFx (3.4.5)

3.5 Presenza di prodotti incrociati nell'indice di costo

In alcuni casi diventa utile utilizzare anche i prodotti incrociati all'interno del-l'indice quadratico di costo. Tali termini sono spesso utilizzati per l'ottimiz-zazione della potenza in un processo. Si consideri prima di tutto il sistema

x = F (t)x+G(t)u, con x(t0) dato

L'indice di costo contenente dei prodotti incrociati

V (x(t0), u(·), t0) =ˆ T

t0

[u′(t)R(t)u(t)+2x′(t)S(t)u(t)+x′(t)Q(t)x(t)]dt (3.5.1)

con R de�nita positiva e il seguente vincolo:

Q− SR−1S′ ≥ 0 (3.5.2)

In poche parole Q − SR−1S′ è de�nita non-negativa. Se si desidera si puòconsiderare T in�nito e F ,G,Q,R e S costanti.

Rielaborando l'indice (3.5.1) si ottiene:

u′Ru+ 2x′Su+ x′Qx = (u+R−1S′x)′R(u+R−1S′x) + x′(Q− SR−1S′)x

De�nendou1 = u+R−1S′x (3.5.3)

il sistema de�nito all'inizio diventa

x = (F −GR−1S′)x+Gu1 (3.5.4)

e l'indice di costo iniziale è equivalente a

V (x(t0), u(·), t0) =ˆ T

t0

[u′1R(t)u1 + x′(Q− SR−1S′)x]dt (3.5.5)

A questo punto valgono le seguenti a�ermazioni:

15

3.6 Regolatore con uno speci�co grado di stabilità

• I controlli ottimi u∗e u∗1 dei due problemi di ottimizzazione sono collegatidalla relazione u∗1 = u∗ +R−1S′x.

• L'indice di costo ottimo per i due problemi è lo stesso.

• Le traiettorie in catena chiusa con il controllo ottimo implementato sonole stesse nei due casi.

Il controllo ottimo per il problema in (3.5.5) è u∗1 = −R−1G′(t)P (t, T )x(t) dove

− P = P (F −GR−1S′)+(F ′−SR−1G′)P −PGR−1G′P +Q−SR−1S′ (3.5.6)

con P (T, T ) = 0. L'indice di costo ottimale è x′(t0)P (t0, T )x(t0). Il controlloottimale è invece

u∗(t) = −R−1(t)[G′(t)P (t, T ) + S′(t)]x(t) (3.5.7)

3.6 Regolatore con uno speci�co grado di stabilità

È possibile de�nire un problema di regolazione leggermente diverso da quello�n'ora trattato. Infatti si studia qui il caso in cui si voglia ottenere un sistemain catena chiusa con un prescritto grado di stabilità α. Con questo si intende undeterminato α > 0 per cui gli stati x(t) tendano a zero almeno con la velocitàdi e−αt nel caso continuo. Si concentra l'attenzione sul caso di sistemi tempo-invarianti quando il controllo ottimo è costante e ha degli autovalori in catenachiusa con parte reale minore di −α. Certamente più α cresce e maggiore saràil grado di stabilità raggiunto dal sistema in catena chiusa, ma maggiore saràanche l'energia spesa a raggiungerlo e maggiore sarà anche la complessità delcontrollore. Come si vede quindi, la scelta di α dev'essere fatta tenendo contodi più fattori.

Si consideri il sistema

x = F (t)x+G(t)u x(t0) dato (3.6.1)

dove F e G sono prese costanti e la coppia [(F + αI), G] sia completamentestabilizzabile. Si consideri inoltre l'indice di costo associato

V (x(t0), u(·), t0) =ˆ ∞t0

e2αt(u′Ru+ x′Qx)dt (3.6.2)

dove R e Q sono costanti, simmetriche, e rispettivamente de�nita positiva ede�nita non-negativa. Sia α una costante non-negativa. Sia D una qualsiasimatrice tale che DD′ = Q e [F + αI,D] sia rivelabile. Lo scopo è trovare ilminimo valore di (3.6.2) e l'associato controllo ottimo.

Se si de�niscono

x(t) = eαtx(t) (3.6.3)

u(t) = eαtu(t) (3.6.4)

quindi il nuovo sistema diventa

16

3 EQUAZIONE DI RICCATI E COSTRUZIONE DEL REGOLATORE

˙x = ddt (e

αtx(t)) = αeαtx(t) + eαtx(t) = αx+ eαtFx+ eαtGu

= (F + αI)x+Gu (3.6.5)

con condizione iniziale x(t0) = eαt0x(t0).

L'indice di costo in (3.6.2) può essere riscritto come

V (x(t0), u(·), t0) =ˆ ∞t0

(u′Ru+ x′Qx)dt (3.6.6)

Quindi se per l'indice appena mostrato il controllo ottimale è u∗ = k(x(t), t)allora per l'indice (3.6.2) è u∗(t) = e−αtu(t) = e−αtk(eαtx(t), t).

Per garantire l'esistenza di un controllo ottimo, si richiede che la coppia[F +αI,G] sia completamente stabilizzabile. Usando la teoria precedentementepresentata si consideri P (t, T ) soluzione al tempo t dell'equazione

− P = P (F + αI) + (F ′ + αI)P − PGR−1G′P +Q (3.6.7)

con la condizione al contornoP (T, T ) = 0. Quindi se P = limt→−∞

P (t, T ) allora

esiste una matrice costante che soddisfa all'equazione

P (F + αI) + (F ′ + αI)P − PGR−1G′P +Q = 0 (3.6.8)

Il controllo ottimo diviene

u∗(t) = −R−1G′P x(t) (3.6.9)

e il sistema a catena chiusa è

˙x = (F + αI −GR−1G′P )x (3.6.10)

Una condizione necessaria e su�ciente a�nché la (3.6.10) sia asintoticamentestabile è che la coppia [F +αI,D] sia completamente rilevabile con D qualsiasimatrice tale che DD′ = Q.

Ritornando però al problema originario si può trovare il controllo ottimo

u∗(t) = −e−αtR−1G′P eαtx(t) = −R−1G′P x(t) (3.6.11)

Per dimostrare se il sistema ha raggiunto l'e�ettivo grado di stabilità comeinizialmente ipotizzato si consideri dalla (3.6.3) che x(t) = e−αtx(t). Poichéil sistema in (3.6.10) è asintoticamente stabile per le ipotesi precedentementefatte, si sa che x(t) tende a zero per t che tende all'in�nito quindi che x(t) tendea zero almeno come e−αt per t che tende all'in�nito.

Come già accennato il minimo ottenuto dalla (3.6.2) è lo stesso di quelloottenuto nella (3.6.6). L'indice ottimale, espresso in termini di P , è x′(t0)P x(t0).Quindi il minimo valore raggiunto dalla (3.6.2) è x′(t0)e−2αt0 P x(t0).

Si fa notare che ogni autovalore nel sistema iniziale a destra di <(s) =−α diventa un autovalore nel sistema (3.6.5) alla destra di <(s) = 0. Ognimodo scarsamente controllabile del sistema originario in <(s) ≥ −α causeràun aumento dell'indice di costo, del guadagno del controllo, e del segnale dicontrollo.

17

4 Sistemi di tracking

4.1 L'inseguimento di una traiettoria desiderata

In questa sezione si esamina il problema dell'inseguimento da parte dell'uscitadel sistema di una traiettoria desiderata. Si fa uso di un feedback degli stati,presenti o stimati, con dei controllori che si occupano del calcolo della traiettoriada inseguire.

I problemi di tracking si dividono essenzialmente in tre categorie:

• servo problem: se le uscite del sistema devono inseguire una determinataclasse di traiettorie, per esempio tutti i polinomi superiori ad un certogrado.

• tracking problem: se la traiettoria desiderata è una particolare funzionenel tempo.

• model-following problem: se le uscite del sistema devono inseguire le uscitedi un altro sistema (o modello).

Per selezionare un indice di costo per la costruzione del regolatore i termini dicosto sono costruiti per il controllo dell'energia e quest'ultima viene associatacon gli stati. Speci�catamente, prendendo in esame il sistema lineare seguente

x = Fx+Gu x(t0) dato (4.1.1)

si può considerare l'indice

V (x(t0), u(·), T ) =ˆ T

t0

(u′Ru+ x′Qx)dt (4.1.2)

Si desidera che l'uscita del sistema (4.1.1) che è

y = H ′x (4.1.3)

insegua la traiettoria desiderata y(·). Nell'indice di costo quindi deve esserepresente un peso anche sull'errore (y − y). Un nuovo indice di costo che quindipotrebbe adattarsi a questo scopo è

V (x(t0), u(·), T ) =ˆ T

t0

[u′Ru+ (y − y)′Q(y − y)]dt (4.1.4)

dove Q è de�nita non-negativa ed R è de�nita positiva. Per una più facilepresentazione si omette il termine [y(T )−y(T )]′A[y(T )−y(T )] con A simmetricasemi-de�nita positiva. Anche qui si hanno termini quadratici che, come giàdimostrato, danno origine a una legge di controllo lineare. Minimizzando quindil'errore d'inseguimento si pone un vincolo sull'uscita y = H ′x del sistema. Daqui si intuisce che se H ha rango m allora vengono imposti m vincoli su x. Éutile imporre altri n −m vincoli su x senza creare con�itti tra obbiettivi. Lamigliore via di procedere è generalizzare l'indice precedente

V (x(t0), u(·), t0) =ˆ T

t0

[u′Ru+ y′Q1y + (y − y)′Q2(y − y)]dt (4.1.5)

18

4 SISTEMI DI TRACKING

dove Q1 e Q2 sono matrici simmetriche de�nite non-negative e

y = H ′x H ′ = I − LH ′ L = H(H ′H)−1 (4.1.6)

Si noti che H ′y = 0.Quindi l'indice (4.1.5) può essere riscritto più convenientemente

V (x(t0), u(·), t0) =ˆ T

t0

[u′Ru+ (x− x)′Q(x− x)]dt (4.1.7)

dove Q = HQ1H′ +HQ2H

′, x = Ly

Nell'ultimo indice si pesa l'errore tra lo stato e uno speciale stato desideratoconnesso direttamente alla traiettoria desiderata in uscita y. Si ha infatti chey = H ′x. C'è un'importante proprietà che caratterizza la traiettoria x cioè chele sue componenti nel nucleo di H ′ sono nulle. Questa proprietà suggerisce comepuò essere riferita ad uno stato desiderato di traiettoria.

4.2 Applicazioni a tempo �nito

4.2.1 Servo problem

Si prenda in considerazione il sistema seguente

x = Fx+Gu x(t0) data

y = H ′x (4.2.1)

dove le m entrate di y sono linearmente indipendenti o, equivalentemente, lamatrice H ha rango m. Si supponga inoltre dato il vettore di riferimento didimensione m, y, che è l'uscita di un sistema di dimensione p conosciuto

z = Az z(t0) data

y = C ′z (4.2.2)

Senza perdita di generalità si consideri la coppia [A,C] completamente os-servabile.

La risoluzione del problema sta nel trovare un controllo ottimo u∗ per ilsistema (4.2.1) tale che l'uscita y insegua il segnale y minimizzando l'indice dicosto

V (x(t0), u(·), t0) =ˆ T

t0

[u′Ru+ (x− x)′Q(x− x)]dt (4.2.3)

x = Ly

19

4.2 Applicazioni a tempo �nito

dove Q è simmetrica de�nita non-negativa ed R è una matrice simmetrica de�ni-ta positiva. Si noti che la traiettoria desiderata y risulta da un'equazione dif-ferenziale e questo esclude anche il fatto che le traiettorie possano avere discon-tinuità per t > t0. Inoltre il caso speciale in cui C è un vettore ed A è del tipoqui sotto porta ad una classe di y che consistono in polinomi di grado (p− 1).

A =

0 1 · · · 0· 0 1 ·· · · ·· · ·· · 10 · · · · 0

(4.2.4)

Per riportare questo problema alla costruzione di un controllore si deve fareun'assunzione:

Assunzione. Il modello di stato di riferimento z è direttamente misurabile.

Si de�nisce quindi una nuova variabile

x =[xz

](4.2.5)

e le nuove matrici

F =[F 00 A

]G =

[G0

]

Q =[

Q −QLC ′−CL′Q CL′QLC ′

](4.2.6)

Con le nuove matrici così de�nite l'indice di costo può essere così riscritto:

V (x(t0), u(·), t0) =ˆ T

t0

(u′Ru+ x′Qx)dt (4.2.7)

e vale anche la seguente relazione

˙x = F x+ Gu x(t0) data (4.2.8)

Applicando la teoria già a�rontata il controllo ottimo per il sistema appenapresentato è:

u∗ = −R−1G′P x (4.2.9)

dove P (·) è la soluzione dell'equazione di Riccati

− ˙P = P F + F ′P − P GR−1G′P + Q P (T ) = 0 (4.2.10)

L'indice di costo minimo quindi è

V ∗(x(t0), t0) = x′(t0)P (t0)x(t0) (4.2.11)

Per ricondurre questi risultati alle variabili presentate inizialmente, si ripar-tisce prima di tutto P come

20

4 SISTEMI DI TRACKING

P =[

P P12

P ′12 P22

](4.2.12)

con P di dimensioni n× n. Inoltre sostituendo (4.2.6) e (4.2.12) nella (4.2.9) siha il controllo ottimo

u∗ = K ′x+K ′1z (4.2.13)

dove

K ′ = −R−1G′P (4.2.14)

K ′1 = −R−1G′P12 (4.2.15)

L'equazione di Riccati quindi diventa

− P = PF + F ′P − PGR−1G′P +Q P (T ) = 0 (4.2.16)

− P12 = P12A+ F ′P12 − PGR−1G′P12 −QLC ′ P12(T ) = 0 (4.2.17)

− P22 = P22A+A′P22 − P ′12GR−1G′P12 +CL′QLC ′ P22(T ) = 0 (4.2.18)

L'indice di costo minimo diventa

V ∗(x(t0), t0) = x′(t0)P (t0)x(t0) + 2x′(t0)P12(t0)z(t0)

+ z′(t0)P22(t0)z(t0) (4.2.19)

Figura 1:

21

4.2 Applicazioni a tempo �nito

Figura 2:

La �gura 1 mostra il sistema aumentato (4.2.8) separato nelle sue componenticome in (4.2.5) e (4.2.6) e controllato da un feedback dello stato. La �gura 2mostra che esso è equivalente alla costruzione di un regolatore minimizzandol'iniziale indice di costo

V (x(t0), u(·), t0) =´ Tt0

(u′Ru+ x′Qx)dt

per il sistema (4.2.1) usando la teoria della regolazione. In più è presenteun ingresso esterno che è lo stato z del sistema lineare (4.2.2). Una cosa moltointeressante da notare è che la parte in feedback è indipendente da A, C ez(t0). Questo tipo di controllore è chiamato �a due gradi di libertà� con unfeed-forward tempo-variante e guadagni di feedback. Nel caso z non fosse di-rettamente misurabile cioè non valesse l'ultima assunzione fatta, l'unico mododi risolvere il problema è la stima dello stato z con l'uso di uno stimatore. Aquesto proposito si rende necessaria la completa osservabilità della coppia [A,C]in modo che l'errore di stima tra z e z tenda a zero in un tempo su�cientementeadeguato.

4.2.2 Model-following (servo) problem

Questa è una generalizzazione del problema a�rontato precedentemente dove latraiettoria y da inseguire è la risposta di un sistema lineare o di un modello deltipo

z1 = A1z1 +B1r z1(t0) dato

y = C ′1z1 (4.2.20)

dove l'ingresso r è comandato dalla classe di sistemi seguente

z2 = A2z2 z2(t0) dato

r = C ′2z2 (4.2.21)

I sistemi (4.2.20),(4.2.21), insieme formano un sistema lineare

z = Az

y = C ′z (4.2.22)

dove z =[z′1 z′2

]′e le matrici A e C ′ sono date da

22

4 SISTEMI DI TRACKING

A =[A1 B1C

′2

0 A2

]C ′ =

[C ′1 0

](4.2.23)

Se z risulta disponibile, le equazioni per questo problema sono uguali aquelle del problema precedente, altrimenti, nel caso che z2 non sia disponibile èrichiesta una stima dello stato allo stesso modo di quello già trattato.

4.2.3 Tracking problem

Si supponga di avere un sistema lineare di dimensione n con equazioni (4.2.1)dove gli ingressi di y siano linearmente indipendenti. Si supponga inoltre diavere il vettore y(t) di dimensione m per tutti i t nell'intervallo t0 ≤ t ≤ T perun tempo t0 < T . Il problema è trovare il controllo ottimo u∗ per il sistemainiziale a�nché l'uscita y insegua il segnale y minimizzando l'indice (4.2.3) doveQ è simmetrica de�nita non-negativa ed R simmetrica de�nita positiva. InoltreL e Q possono essere de�nite come nel problema iniziale.

Assunzione. Il vettore y(t) per tutti i t0 ≤ t ≤ T sia l'uscita di un sistemalineare di dimensione �nita

z = Az e y = C ′z (4.2.24)

con la coppia [A,C] non necessariamente completamente osservabile.

Usando i risultati ottenuti da (4.2.13) �no alla (4.2.18) e de�nendo b , P12zallora il controllo ottimo diventa

u∗ = K ′x+ uext (4.2.25)

uext = −R−1G′b (4.2.26)

La matrice K è calcolata tramite la (4.2.14) e (4.2.16). Quindi, l'indiceminimo della (4.2.19) , de�nendo c , z′P22z, si può riscrivere come

V ∗(x(t0), t0) = x′(t0)P (t0)x(t0) + 2x′(t0)b(t0) + c(t0) (4.2.27)

Se le matrici A e C non si conoscono P12 , P22, e il vettore z non possonoessere determinati. Però i prodotti de�niti da b e c possono essere determinatidirettamente a partire da y come segue.

− ddt (P12z) = −P12z − P12z

= F ′P12z + P12Az − PGR−1G′P12z −QLC ′z − P12Az

= (F −GR−1G′P )′(P12z)−QLy

con la condizione al contorno P12(T )z(T ) = 0. Questo dimostra che sesi conosce y(t) per tutti i t dell'intervallo considerato, il termine b può esserecalcolato dall'equazione di�erenziale lineare

− b = (F −GR−1G′P )′(P12z)−Qx b(T ) = 0 (4.2.28)

La legge di controllo ottimo (4.2.25), (4.2.26), è realizzabile senza la conoscen-za dello stato z o della sua stima z, inoltre le matrici A e C non sono necessarieper il calcolo di u∗.

Usando il procedimento analogo si determina c:

23

4.3 Applicazioni a tempo in�nito

ddt (z

′P22z) = z′P22z + 2z′P22z

= z′P ′12GR−1G′P12z − z′CL′QLC ′z

riscrivendola in funzione di b

c = b′GR−1G′b− x′Qx c(T ) = 0 (4.2.29)

Si può notare come A e C non rientrano nella determinazione di (4.2.27)dove è necessario conoscere solo b e c.

4.2.4 Model following tracking problem

Questo problema sorge quando il segnale di riferimento r è conosciuto a priori.Può essere risolto attraverso l'applicazione dei risultati appena presentati nelproblema di tracking oppure si può usare un diverso approccio. Si osservi cheun sistema aumentato per questo tipo di problema può essere

x =[xz1

], F =

[F 00 A1

], G =

[G0

], Γ =

[0B1

](4.2.30)

Q =[

Q −QLC ′−CL′Q CL′QLC ′

]Lo scopo è ottimizzare il seguente indice

V (x(t0), u(·), t0) =ˆ T

t0

(u′Ru+ x′Qx)dt (4.2.31)

dove

x = F x+ Gu+ Γr (4.2.32)

con r è conosciuto nell'intervallo [t0, T ].

4.3 Applicazioni a tempo in�nito

A questo punto si prendono in considerazione sistemi e indici di costo conparametri tempo-invarianti e quindi si estendono i risultati già presentati nellasezione precedente. Questo scopo si ottiene prima di tutto facendo tendere iltempo �nale T ad in�nito. Inoltre lo stato, o la sua stima, con la parte delcontrollore in feedback diventano tempo-invarianti.

4.3.1 Tracking problem a tempo in�nito

Si consideri il sistema

x = Fx+Gu (4.3.1)

y = H ′x (4.3.2)

24

4 SISTEMI DI TRACKING

con H di rango m. Sia dato inoltre il vettore funzione y(t) per t ∈ (t0,∞).Si suppone che [F,G] sia stabilizzabile e si cerca il controllo ottimo u∗ cheminimizza l'indice di costo

limT→∞

V (x(t0), u(·), T ) = limT→∞

ˆ T

t0

[u′Ru+ (x− x)′Q(x− x)]dt (4.3.3)

dove

x = Ly (4.3.4)

con

L = H(H ′H)−1 (4.3.5)

e

Q = [I − LH ′]′Q1[I − LH ′] +HQ2H′ (4.3.6)

per Q1 e Q2 non-negative. Si suppone inoltre che [F,D] sia rivelabile, doveDD′ = Q.

Per trovare il risultato a tempo in�nito si può procedere usando la relazionea tempo �nito e facendo poi tendere T → ∞. Inoltre per la proprietà dellastabilizzabilità P (t, T )→ P . Si dimostra anche che b(t) tende ad una quantità�nita per ogni t �nito. Partendo dalla (4.2.25) e sapendo che K = −PGR−1 siottiene per T →∞

b(t) = −ˆ ∞t

exp[(F +GK ′)′(τ − t)]Qx(τ)dτ (4.3.7)

si noti che la derivata di quest'ultima è

˙b = −(F +GK ′)′b+Qx (4.3.8)

Poiché (F + GK ′)′ ha autovalori a parte reale negativa, per le ipotesi distabilizzabilità e rivelabilità, è facile notare che se x(·) è limitato allora ancheb(t) lo è, infatti se

‖exp(F +GK ′)t‖ ≤ α exp(−βt) α, β > 0 (4.3.9)

e

‖Qx(s)‖ ≤ γ (4.3.10)

Quindi

∥∥b(t)∥∥ ≤ αγ ˆ ∞t

exp[−β(s− t)]ds =αγ

β(4.3.11)

In generale non si raggiunge la stessa proprietà anche per c(t).

c = bGR−1G′b− x′Qx c(T ) = 0

25

4.3 Applicazioni a tempo in�nito

Infatti per T → ∞ essa è un integrale di una quantità diversa da zero. Daqui si capisce che l'indice di costo ottimale è in�nito e che il controllo ottimou = K ′x−R−1G′b de�nito precedentemente non è utilizzabile.

Si capisce quindi che ci si deve accontentare di una soluzione a tempo in�ni-to sub-ottima e approssimata. Successivamente si presentano alcuni approcciproprio a questo scopo.

4.3.2 Tecniche di tracking sub-ottimo

La formula (4.3.7) mostra che b(t) e�ettivamente dipende da x(s) solo per glis ∈ [t, t+ ∆], dove ∆ è la costante di tempo dominante associata agli autovaloridi F +GK ′. Quindi ciò che è possibile fare, è guardare ad un tempo �nito nelfuturo e usare

b(t) =ˆ t+∆

t

exp[(F +GK ′)′(τ − t)]Qx(τ)dτ (4.3.12)

o de�nire b(t) come la soluzione al tempo t di

db(τ, t+ ∆)dτ

= −(F +GK ′)′b(τ, t+∆)+Qx(τ) b(t+∆, t+∆) = 0 (4.3.13)

Se x(·) presenta piccole variazioni, si può usare anche l'approssimazioneseguente

b(t) = [(F +GK ′)′]−1x(t) (4.3.14)

ottenuta prendendo ˙b(t) = 0 e risolvendo l'equazione lineare per b. Si noti chequesta è una soluzione esatta della (4.3.7) o della (4.3.8) se x(t) è costante.

Per capire meglio l'errore di approssimazione e dedurre da questo un'ulterioreapprossimazione, si consideri il seguente esempio scalare:

x = u y = x

con

V (x(0), u(·)) =´∞

0[(y − y)2 + τ2u2]dt

e

y = 0 0 ≤ t < t1

y = a(t− t1) t1 ≤ t < t2

y = a(t2 − t1) t2 ≤ t <∞

Risolvendo il problema di tracking con PF + F ′P − PGR−1G′P +Q = 0 siarriva a P = τ e

u = −τ−1x− τ−2b

con

26

4 SISTEMI DI TRACKING

˙b = τ−1b+ y b(∞) = 0

Imponendo ˙b = 0 si giunge al controllo sub-ottimo u = −τ−1x + τ−1y.L'e�etto sul tracking dell'uscita è descritto nella �gura 3. Si noti la caratteristicaanticipativa della risposta ottima dovuta alla conoscenza a priori di y. Inoltrein �gura 4 sono rappresentati i segnali di comando.

Queste risposte suggeriscono un'ulteriore approssimazione sul risultato sub-ottimo appena raggiunto considerando prima di tutto

b(t) = −τ y(t+ τ) (4.3.15)

e arrivando quindi a

u = −τ−1x+ τ−1y(t+ τ) (4.3.16)

l'e�etto di questa approssimazione è lo shift a sinistra delle risposte sub-ottimedelle �gure 3 e 4.

Figura 3:

Figura 4:

27

4.3 Applicazioni a tempo in�nito

4.3.3 Servo problem a tempo in�nito

Si deve ricordare che lo scopo è inseguire una traiettoria y generata dal sistema

z = Az (4.3.17)

y = C ′z (4.3.18)

Si distinguono quindi i seguenti casi:

1. <λi(A) < 0 per ogni i. y(t) e x(t) tendono esponenzialmente a zero(ricordando che x = Ly). Questo signi�ca che la parte in feed-forwarddel controllo ottimo si annulla in maniera esponenziale e anche x(t) sicomporta in questo modo. Inoltre l'indice di costo risulta �nito.

2. <λi(A) ≤ 0 con <λi(A) = 0 per qualche i e A non ha autovalori multipliimmaginari puri. Ne deriva una y limitata, ma che generalmente non siannulla.

3. <λi(A) > 0 per qualche i o A ha autovalori multipli immaginari puri.Ovviamente y è illimitata e la quantità b(t) de�nita nella (4.3.7) potrebbenon esistere. Comunque, sotto il vincolo

<λi(F +GK ′) + <λj(A) < 0 ∀i e j (4.3.19)

l'argomento dell'integrale in (4.3.7) decresce esponenzialmente e b(t) esiste,ma non sarà limitato. Quindi neanche u(t) sarà limitato.

4.3.4 Principio del modello interno e inseguimento a errore nullo

Si analizza ora la possibilità di ottenere un errore che asintoticamente tendea zero e un indice di costo �nito usando i risultati a tempo in�nito del servoproblem. Assumendo che Q ed L siano scelte come nei problemi precedenti, èchiaro che l'obbiettivo è quello di far tendere y − y a zero e che anche u tendaa zero. Se si deriva y da un servo problem si può ottenere come combinazionelineare di vari esponenziali. Quelli d'interesse per lo scopo pre�sso sono quelliche non tendono a zero per t→∞. Se y− y → 0 signi�ca che y necessariamentecontiene questo tipo di esponenziali. Inoltre se y contiene questi esponenzialimentre u → 0, allora questi devono essere modi del sistema in catena aperta.Da qui si capisce come devono esserci delle basi coordinate per z e x tali che:

A =[A1 00 A2

]F =

[A1 F12

0 F22

](4.3.20)

dove <λi(A1) ≥ 0 per ogni i, <λi(A2) < 0. Però, per assicurare che y − y → 0quando u→ 0, si deve fare in modo che le risposte a ingresso nullo all'uscita delsistema coincidano. Questo signi�ca che le basi coordinate devono assicurareper un certo α 6= 0 che

C ′ =[C ′1 C ′2

]H ′ =

[αC ′1 H ′2

](4.3.21)

Infatti dato lo stato iniziale z1(t0), devono esistere α e x1(t0) per i quali lerisposte a ingressi nulli sono uguali che è equivalente a scrivere

28

4 SISTEMI DI TRACKING

C ′1 exp[A1(t− t0)]z1(t0) = αC ′1 exp[A1(t− t0)]x1(t0)

Come si può intuire questo non è altro che il principio del modello interno:il sistema infatti deve contenere al suo interno tutti i modi non asintoticamentestabili del modello del servo. Si dimostra ora che sotto le condizioni appenaesposte il problema di ottimizzazione

V (x(t0), u(·)) =ˆ ∞t0

[u′Ru+ (y − y)′Q2(y − y)]dt (4.3.22)

è facilmente riducibile ad un problema di regolazione che fa tendere u → 0,y − y → 0, e rende V ∗ �nito. Consideriamo prima di tutto le equazioni dei duesistemi:[x1

x2

]=[A1 F12

0 F22

] [x1

x2

]+[G1

G2

]u,

[z1

z2

]=[A1 00 A2

] [z1

z2

]Quest'ultimi possono essere combinati come segue:

w =

A1 F12 00 F22 00 0 A2

w +

G1

G2

0

u w =

x1 − z1

x2

z2

(4.3.23)

y − y =[αC ′1 H ′2 −C ′2

]w

Questo sistema è stabilizzabile se [F,G] è stabilizzabile. La nuova variabiledi stato è w. Si osservi quindi che l'indice di costo (4.3.22) è quadratico in u e w.Se la proprietà di rivelabilità è valida nel problema in (4.3.22) con y = 0, alloraessa vale anche per la nuova con�gurazione che coinvolge lo stato w. Quindiottimizzando u→ 0, w → 0 e V ∗ è �nito.

4.3.5 Model following con risposta a gradino

Lo scopo ora è far inseguire al sistema una risposta di uno speci�co modellocon ingresso a gradino. Si usano i risultati ottenuti nell'ottimizzazione a tempo�nito per raggiungere poi il progetto di un controllore invariante nel tempo. Siconsideri il sistema aumentato

x = F x+ Gu+ Γr (4.3.24)

y = H ′1x y = H ′2x (y − y) = (H1 − H2)′x

dove

x =[xz1

], F =

[F 00 A1

], G =

[G0

], Γ =

[0B1

]

H ′1 =[H ′ 0

]H ′2 =

[0 C ′1

](4.3.25)

Il controllo u è costruito in modo che l'uscita y del sistema originale insegual'uscita del modello y in presenza di un ingresso r conosciuto. Si assume inoltreche il modello sia asintoticamente stabile.

29

4.3 Applicazioni a tempo in�nito

L'indice quadratico deve vincolare il termine u′Ru ma anche (y− y)′Q(y− y)o, ugualmente, x′(H1 − H2)Q(H1 − H2)′x per qualche R > 0, Q > 0. Quindicon Q = (H1 − H2)Q(H1 − H2)′ si deve ottimizzare il seguente indice:

V =ˆ ∞t0

(u′Ru+ x′Qx)dt (4.3.26)

con u controllo della (4.3.24) e r una costante conosciuta a priori.Il controllo ottimo dalla (4.2.13) è

u∗ = −R−1G′(P x+ b)

dove

P F + F ′P − P GR−1G′P + Q = 0 P ≥ 0

e b è la soluzione di

− ˙b = (F − GR−1G′P )′b− P Γr b(∞) = 0

cioè, se r è costante

b =[(F − GR−1G′P )′

]−1

P Γr

e con P , b suddivise come segue

P =[

P P12

P ′12 P22

], b =

[b1∗

]con alcuni passaggi si veri�ca che P soddisfa l'equazione di Riccati e P12 è la

soluzione di una equazione lineare matriciale. La stabilità di A e F −GR−1G′Pgarantisce l'esistenza di P12. Inoltre

u∗ = −R−1G′(Px+ P12z1 + b1)

con

b1 = (F ′ − PGR−1G′)−1PB1r

Quindi la legge di controllo ottimo è della forma

u∗ = K ′x+K ′12z1 +K ′1r = K ′x+ uf

K ′ = −R−1G′P, K ′12 = −R−1G′P12

K ′1 = −R−1G′(F ′ − PGR−1G′)−1PB1 (4.3.27)

Il controllore in feed-forward quindi è

z1 = A1z1 +B1r

30

4 SISTEMI DI TRACKING

uf = K ′12z1 +K ′1r (4.3.28)

In �gura 5 è rappresentato il controllore appena costruito:

Figura 5:

Si sottolinea che questo controllore non include una caratteristica anticipa-trice per la variabile r, essendo ottimale per r costante. Qualsiasi miglioramentosulla risposta nel transitorio può essere fatto aggiungendo una rete anticipatriceal posto del guadagno K1. In ogni caso queste sono tecniche che fanno parte delcontrollo classico e non ottimo. Si sa dalla teoria del controllo classico che unarisposta di un sistema a un gradino può essere migliorata utilizzando feedbackproporzionali ed integrali anziché solamente feedback proporzionali. In questomodo si può raggiungere errore zero a regime facendo riferimento al principiodel modello interno (integratore) nel loop in retroazione.

31

RIFERIMENTI BIBLIOGRAFICI

Riferimenti bibliogra�ci

[1] Brian D. O. Anderson, John B. Moore, Optimal Control, Prentice-HallInternational Inc.,1989.

[2] E. Fornasini, G. Marchesini, Appunti di Teoria dei Sistemi, Edizioni LibreriaProgetto Padova, 2003.

33