Diagnostic de fonctionnement de capteurs d’un réseau de surveillance de la qualité de l’air...

.

Diagnostic de fonctionnement de capteurs

d’un réseau de surveillance de la qualité de

l’air par analyse en composantes principales

Mohamed-Faouzi Harkat* — Gilles Mourot** — José Ragot**

* Université Badji Mokhtar AnnabaFaculté des sciences de l’ingénieur, Département d’électroniqueBP. 12, Sidi Amar, 23000 Annaba, Algérie

** Centre de Recherche en Automatique de NancyInstitut National Polytechnique de Lorraine2, avenue de la Forêt de Haye, 54516 Vandoeuvre-lès-Nancy, France

{mohamed-faouzi.harkat, gilles.mourot, jose.ragot}@ensem.inpl-nancy.fr

RÉSUMÉ. Nous proposons une méthode basée sur l’analyse en composantes principales pour ladétection et la localisation de défauts de capteurs d’un réseau de surveillance de la qualité del’air. Le modèle ACP du réseau de mesures est optimal au sens d’un critère basé sur l’erreurde reconstruction des différentes variables. La détection des défauts de capteurs est réaliséedans différents sous-espaces résiduels à l’aide d’un nouvel indicateur de détection. Enfin, lareconstruction des variables permet, d’une part, en la combinant avec l’indicateur de détection,de localiser les capteurs défaillants et, d’autre part, d’estimer l’amplitude des défauts.

ABSTRACT. In this paper a sensor fault detection and isolation procedure based on principalcomponent analysis is proposed to monitor an air quality monitoring network. The PCA modelof the network is optimal with respect to a reconstruction error criterion. The sensor faultdetection is carried out in various residual subspaces using a new detection index. The recon-struction approach allows, on one hand, by combining it with the detection index, to isolate thefaulty sensors and, on the other hand, to estimate the fault amplitudes.

MOTS-CLÉS : diagnostic, analyse en composantes principales, détection et localisation de défautsde capteurs, reconstruction de variables, réseau de mesures, qualité de l’air.

KEYWORDS: Diagnosis, principal component analysis, sensor failure detection and isolation,reconstruction approach, air quality monitoring network.

RS - JESA – 39/2005. Information et pollution atmosphérique, pages 417 à 436

418 RS - JESA – 39/2005. Information et pollution atmosphérique

1. Introduction

Beaucoup d’activités humaines produisent des polluants primaires comme les oxy-

des d’azote (NO2 et NO) et les composés organiques volatiles (COV) qui forment dans

la basse atmosphère, par des réactions chimiques ou photochimiques, des polluants

secondaires comme l’ozone. Les concentrations admissibles de ces polluants, nocifs

pour la santé humaine et l’environnement, sont définies par des normes européennes.

Les missions principales des organismes chargés de la surveillance de la qualité de

l’air sont la gestion des réseaux de mesures (mesures de concentration de polluants

et d’un ensemble de paramètres météorologiques) et la diffusion des données pour

l’information permanente de la population et des autorités publiques.

Pour assurer ces missions, la mise en œuvre d’une procédure de diagnostic de

fonctionnement de capteurs est indispensable avant toute utilisation des mesures pour

déceler d’éventuelles anomalies de fonctionnement des capteurs, principalement ceux

mesurant les concentrations des polluants. De plus, si on considère l’étendue géo-

graphique de la zone surveillée par un réseau, on constate immédiatement l’intérêt de

cette procédure qui va également permettre d’optimiser les opérations de maintenance.

Jusqu’à présent, la validation des données de pollution est réalisée soit manuellement

ce qui est très subjectif et difficilement praticable en ligne à cause de la quantité de

mesures à valider, soit à l’aide de méthodes de détection de valeurs aberrantes qui ne

permettent de détecter que des valeurs en dehors des échelles de mesure.

Cependant, pour résoudre ce problème, il existe une approche basée sur le concept

de redondance analytique existant entre les différentes variables du processus. Un test

de cohérence vérifiant l’adéquation entre les mesures et les estimations fournies par

ces relations permet de déterminer et éventuellement d’isoler les capteurs défaillants.

Les performances de la procédure de diagnostic en termes de détection et localisa-

tion de défauts dépendent donc directement de la qualité de ces relations mais aussi

de leur structure. Ces relations mathématiques entre les différentes variables du sys-

tème prennent généralement deux formes. La première est un ensemble de relations

explicites de type entrée/sortie entre les variables de ce système. Elles sont extraites

du modèle du système qui est lui-même souvent issu d’une étape antérieure d’iden-

tification du système dans laquelle sont pris uniquement en compte des critères de

performances liés à la capacité du modèle à reproduire la sortie du système. Pour des

systèmes de grande dimension dont les composants peuvent être fortement liés (degré

de redondance élevé), l’élaboration de cette formulation explicite des relations de re-

dondance n’est pas immédiate car elle doit être guidée principalement par des critères

de performances du système de diagnostic. L’alternative consiste à ne pas formuler ex-

plicitement ces relations. Les méthodes alors utilisées sont basées uniquement sur les

signaux entrées/sorties du système (analyse en composantes principales, par exemple)

et sont particulièrement bien adaptées à la mise en évidence de toutes les relations

linéaires entre les variables du système sans les formuler explicitement. Cette repré-

sentation permet la prise en compte d’un critère propre au diagnostic lors sa synthèse

(Dunia et Qin, 1998). L’analyse en composantes principales (ACP) est ainsi utilisée

pour modéliser le fonctionnement normal du système et les défauts sont alors détectés

Diagnostic de fonctionnement par ACP 419

en comparant le comportement observé et celui donné par le modèle ACP (Wise et

Gallagher, 1996).

En collaboration avec AIRLOR, réseau lorrain de surveillance de la qualité de l’air,

le but de ce travail est de développer une méthode pour la détection et localisation

de défauts de capteurs de ce réseau. Dans la suite, nous nous intéressons uniquement

aux capteurs mesurant les concentrations d’ozone et d’oxydes d’azote. D’une part, la

complexité du phénomène et l’absence de mesures de certaines grandeurs et, d’autre

part, la dimension élevée du processus (le réseau de mesures) ainsi que le fort degré

de redondance entre les variables du réseau nous ont incité à utiliser l’analyse en

composantes principales pour extraire les relations existant entre ces grandeurs.

Cet article est organisé comme suit. La deuxième section présentera la méthode

proposée de détection et localisation de défauts de capteurs basée sur l’analyse en

composantes principales. Dans un premier temps, nous présentons le principe de

l’ACP et montrons comment élaborer le modèle ACP d’un système. Ensuite, après

avoir rappelé le principe de la détection et localisation de défauts de capteurs par

ACP, nous proposons un nouvel indicateur de détection de défauts de capteurs qui est

calculé à partir des dernières composantes principales. Pour la localisation des cap-

teurs défaillants, nous combinons l’indicateur de détection proposé et le principe de

reconstruction des variables. Enfin, la reconstruction des mesures aberrantes permet

d’estimer l’amplitude des défauts. Dans la section 3, nous présentons l’application de

la méthode proposée à la détection et la localisation de défauts de capteurs d’ozone

et d’oxydes d’azote d’un réseau de surveillance de la qualité de l’air en Lorraine. Des

conclusions ainsi que des perspectives sont finalement présentées dans la dernière sec-

tion.

2. Détection et localisation de défauts par ACP

2.1. Modélisation par ACP

Dans cette partie, nous allons rappeler le principe de l’analyse en composantes

principales. L’analyse en composantes principales permet de mettre en évidence des

relations linéaires statiques entre les variables du processus. Cependant, son applica-

tion directe à des données issues d’un système dynamique ne révélera pas les relations

exactes existant entre les variables. Ku et al. (1995) ont proposé une extension, appe-

lée analyse en composantes principales dynamiques, qui consiste à appliquer l’ACP

à une matrice de données augmentées contenant les différentes variables du système

décalées dans le temps. Récemment, Li et Qin (2001), puis Wang et Qin (2002) ont

proposé des extensions de l’ACP dynamique proches des méthodes d’identification

des sous-espaces pour éliminer un biais éventuel sur les paramètres du modèle.

2.1.1. ACP standard

Soit x(k) = [x1(k) x2(k) . . . xm(k)]T

le vecteur contenant les m variables ob-

servées du système (mesures ou commandes) à l’instant k. Considérons la matrice


de données X = [x(1) x(2) . . . x(N)]T

∈ ℜN×m comprenant N observations

x(k)(k = 1, . . . , N) recueillies sur ce processus en fonctionnement normal.

L’ACP détermine une transformation optimale (vis-à-vis d’un critère de variance)

de la matrice de données X :

T = XP et X = TPT [1]

avec T = [t1 t2 . . . tm] ∈ ℜN×m, où les ti sont les composantes principales et

la matrice P = [p1 p2 . . . pm] ∈ ℜm×m, où les vecteurs orthogonaux pi sont les

vecteurs propres correspondant aux valeurs propres λi de la décomposition en valeurs

et vecteurs propres de la matrice de covariance (ou de corrélation) Σ de X :

Σ = PΛPT avec PPT = PT P = Im [2]

avec Λ = diag(λ1 . . . λm) une matrice diagonale où les termes diagonaux sont or-

donnés dans l’ordre décroissant : λ1 ≥ λ2 ≥ . . . ≥ λm.

Partitionnons les matrices des valeurs propres, des vecteurs propres et des compo-

santes principales :

Λ =

[Λℓ 0

0 Λm−ℓ

]

, P =[

Pℓ Pm−ℓ

], T =

[

Tℓ Tm−ℓ

][3]

où l’indice ℓ sera défini ultérieurement.

L’équation [1] s’écrit alors :

X = TℓPTℓ + Tm−ℓP

Tm−ℓ = X + E [4]

avec :

X = XCℓ [5]

et

E = XCm−ℓ [6]

où Cℓ = PℓPTℓ et Cm−ℓ = Im − Cℓ constituent le modèle ACP du système.

Les matrices X et E représentent, respectivement, les variations modélisées et les

variations non modélisées de X à partir de ℓ composantes (ℓ < m). Les ℓ premiers

vecteurs propres Pℓ ∈ ℜm×ℓ constituent l’espace de représentation alors que les (m−

ℓ) derniers vecteurs propres Pm−ℓ ∈ ℜm×m−ℓ constituent l’espace résiduel.

L’identification du modèle ACP consiste donc à estimer ses paramètres par une

décomposition en valeurs et vecteurs propres de la matrice Σ et à déterminer le nombre

ℓ de composantes principales à retenir. En absence de bruit sur les mesures, les valeurs

propres nulles de Σ indiquent l’existence de relations linéaires entre les composantes

de x. En présence de bruit sur les mesures, les valeurs propres les plus petites par

rapport aux autres indiquent l’existence de relations linéaires ou quasi-linéaires entre

les différentes composantes de x. On entrevoit ici le rôle-clé joué par le nombre ℓ de

composantes dans la détermination des relations de redondance entre variables mais

aussi la difficulté de déterminer ce paramètre structurel.


2.1.2. Détermination du nombre de composantes ℓ

Pour la détermination de ce nombre, de nombreuses règles ont été proposées dans

la littérature (Valle et al., 1999). La plupart sont issues de méthodes heuristiques par-

fois subjectives ou de critères utilisés en identification de système qui privilégient

l’approximation de la matrice de données. Toutefois, dans le cadre de l’application

de l’ACP au diagnostic, le nombre de composantes a un impact significatif sur chaque

étape de la procédure de détection et de localisation de défauts. Si peu de composantes

sont utilisées, certaines variables peuvent être projetées dans le sous-espace résiduel

et ainsi entraîner des erreurs de modélisation qui entachent les résidus, ce qui compro-

met la détection des défauts de petite amplitude. Si, par contre, un nombre élevé de

composantes est choisi, la dimension de l’espace résiduel étant réduite, certains dé-

fauts seront projetés dans l’espace de représentation et ne pourront pas être détectés,

d’autres ne pourront pas être localisés.

Qin et Dunia (2000) ont proposé de déterminer la valeur de ℓ par minimisation

de la variance de l’erreur de reconstruction. La reconstruction consiste à estimer une

variable à l’aide du modèle ACP et des autres variables, i.e. à partir des relations de

redondance existant entre cette variable et les autres. La qualité de la reconstruction

est donc liée à la capacité du modèle ACP à modéliser les relations de redondance

existantes entre les variables, i.e. au choix du nombre de composantes. En effet, si on

choisit un nombre de composantes trop élevé, la matrice Cℓ tendant vers la matrice

identité, les variables seront mal reconstruites. Par contre, si on choisit un nombre

de composantes trop faible, le modèle ACP sera imprécis et la reconstruction des

variables sera mauvaise.

Dans un premier temps, nous montrons comment reconstruire une variable. Soit

xj(k) = [x1(k) . . . xj−1(k) zj(k) xj+1(k) . . . xm(k)]T

le vecteur de mesure x(k)à l’instant k dont la jème composante a été reconstruite par (Wise et Gallagher, 1996) :

zj(k) =

[cT−j 0 cT

+j

]

1 − cjj

x(k) avec cjj < 1 [7]

où Cℓ = [c1 c2 . . . cm] , cTj =

[cT−j cjj cT

+j

]. cj est la jème colonne de Cℓ et les in-

dices +j et −j désignent, respectivement, les vecteurs formés par les (j−1) premiers

et les (m − j) derniers éléments du vecteur cj .

La condition nécessaire de reconstruction d’une variable par le modèle est :

cjj 6= 1 ou encore ξj 6= 0 [8]

où ξj =(

I − Cℓ

)

ξj et ξj = [0 . . . 1 . . . 0]T

.

Si cjj = 1 alors la jème variable n’est pas corrélée avec les autres et elle ne peut

donc pas être reconstruite à partir des autres variables.


La variance de l’erreur de reconstruction de la jème composante de x(k) est donnée

par :

ρj(ℓ) = var{ξTj (x(k) − xj(k))

}=

ξTj Σξj

(

ξTj ξj

)2 [9]

Le nombre de composantes principales à retenir s’obtient en minimisant par rap-

port à ℓ le critère :

J(ℓ) =

m∑

j=1

ρj(ℓ)

ξTj Σξj

ℓ = 1, . . . ,m − 1 [10]

les contributions des variables au critère étant pondérées par leurs variances.

Qin et Dunia (2000) ont montré que ce critère peut présenter un minimum dans

l’intervalle [1, m]. De plus, ces auteurs proposent d’écarter de l’ensemble des va-

riables utilisées pour la surveillance, celles pour lesquelles la variance d’erreur de

reconstruction est supérieure à la variance d’erreur de reconstruction obtenue en uti-

lisant la valeur moyenne comme meilleure reconstruction. En effet, les variables peu

corrélées avec les autres ne peuvent pas être reconstruites avec une bonne précision.

2.2. Détection de défauts de capteurs

Ayant défini le modèle ACP à partir de données réputées saines, nous examinons

maintenant son utilisation pour la détection de défauts de capteur.

2.2.1. Génération de résidus

Pour un nouveau vecteur de mesure x(k), l’équation [4] s’écrit :

x(k) = x(k) + e(k) [11]

où x(k) = Cℓ x(k) représente le vecteur des estimations et e(k) = (I − Cℓ)x(k)représente le vecteur des erreurs d’estimation.

Le vecteur des composantes principales est donné par :

t(k) = PTx(k) =

[tℓ(k) tm−ℓ(k)

][12]

où :

tℓ(k) = PTℓ x(k), tm−ℓ(k) = PT

m−ℓ x(k) [13]

Il y a équivalence entre le vecteur des résidus e et le vecteur des dernières compo-

santes principales tm−ℓ :

e(k) = Pm−ℓ tm−ℓ(k) [14]

Par conséquent, il est plus simple de travailler directement avec le vecteur tm−ℓ

de dimension (m − ℓ).


Observons maintenant l’influence d’un défaut sur le vecteur résiduel tm−ℓ. Soient

xo(k) le vecteur des valeurs vraies, ǫ(k) le vecteur des bruits de mesure supposé blanc

et ξj la direction du défaut (le défaut affecte la jème composante de x(k)). En présence

d’un défaut d’amplitude d(k) quelconque, on peut écrire :

x(k) = xo(k) + ǫ(k) + ξjd(k) [15]

A partir de cette équation, le vecteur des résidus (voir [13]) s’écrit sous la forme :

tm−ℓ(k) = PTm−ℓ x

o(k)︸︷︷︸

=0

+PTm−ℓ ǫ(k) + PT

m−ℓ ξjd(k)[16]

En absence de défauts et ǫ étant à valeur moyenne nulle, l’espérance mathématique

du résidu est nulle. Par contre, en présence de défauts, l’espérance mathématique du

résidu n’est plus nulle et le défaut affecte toutes les composantes du vecteur des rési-

dus, le vecteur traduisant cette influence étant la jème colonne de PTm−ℓ.

2.2.2. Indicateur de détection de défauts proposé

Classiquement, plusieurs indicateurs de détection sont utilisés pour la détection

d’un fonctionnement anormal par ACP.

La statistique T 2 est calculée à partir des ℓ premières composantes principales :

T 2(k) = tℓ(k)T Λ−1ℓ tℓ(k) [17]

Dans le cas de défauts de capteurs, cet indicateur n’est pas très performant car

les variations dues au défaut peuvent être masquées par les variations normales des

variables dans l’espace des premières composantes principales.

Contrairement à la statistique T 2, l’indicateur SPE (Squared Prediction Error)

réalise la détection dans l’espace résiduel. A l’instant k, il est donné par :

SPE(k) = tm−ℓ(k)Ttm−ℓ(k) =

m∑

j=ℓ+1

t2j (k) [18]

Le processus est considéré en fonctionnement anormal (présence d’un défaut) à

l’instant k si :

SPE(k) > δ2α [19]

où δ2α est le seuil de confiance du SPE(k) déterminé par Box (1954) ou empirique-

ment à partir des données.

Cependant, l’indicateur SPE est un indicateur global qui somme les résidus sans

tenir compte des différences de variance entre ceux-ci. Lorsque les systèmes considé-

rés ne sont plus linéaires, ce qui est souvent le cas, les résidus avec une forte variance

portent les erreurs de modélisation engendrées par l’ACP. Ainsi les résidus avec une


faible variance auront une influence moindre sur la quantité SPE par rapport aux ré-

sidus ayant une variance plus élevée alors qu’ils correspondent aux relations de redon-

dance linéaires ou quasi-linéaires. Cette sensibilité de l’indicateur SPE aux erreurs

de modélisation peut entraîner de nombreuses fausses alarmes.

Face à ce problème, nous proposons un nouvel indicateur de détection de défauts

basé sur les sommes successives des carrés des dernières composantes principales,

que l’on note Di (i = 1, 2, ..., (m − ℓ)). Il est calculé de la façon suivante :

Di(k) = ti(k)Tti(k) =

m∑

j=m−i+1

t2j (k) i = 1, 2, ..., (m − ℓ) [20]

Avec cet indicateur, la détection est réalisée successivement dans différents sous-

espaces de l’espace résiduel en commençant par les sous-espaces les moins sensibles

aux erreurs de modélisation.

Il existe une forte similitude entre les indicateurs Di et SPE. En effet, l’indicateur

Di correspond à l’indicateur SPE calculé avec un modèle ACP à (m − i) compo-

santes principales. De ce fait, les seuils de détection δ2i,α de cet indicateur peuvent être

calculés avec un raisonnement semblable à celui de Box (1954).

Le processus est considéré en fonctionnement anormal à l’instant k si :

Di(k) > δ2i,α i = 1, 2, ..., (m − ℓ) [21]

Pour améliorer la qualité de la détection en réduisant le taux de fausses alarmes

dues à la présence d’erreurs à caractère aléatoire mais en introduisant un retard à la

détection, le filtre EWMA (Exponentially Weighted Moving Average) peut être appli-

qué aux résidus. On obtient ainsi les résidus filtrés :

¯ti(k) = (I − β) ¯

ti(k)(k − 1) + βti(k) [22]

où β est une matrice diagonale dont les éléments sont les facteurs d’oubli pour les

résidus, I est la matrice identité et la condition initiale suivante ¯t(0) = 0 est imposée.

Le facteur β peut être ajusté en fonction du type de défauts à détecter : β proche de

la matrice identité favorise la détection des changements lents, tandis que β proche de

zéro est plus sensible aux changements brusques. Dans la suite, la matrice des facteurs

d’oubli est simplifiée en β = γI où γ est le facteur d’oubli (0 < γ < 1).

Le seuil de détection de Di(k), indicateur Di(k) filtré, peut être calculé comme

proposé par Qin et al. (1997) pour l’indicateur SPE ou empiriquement.

2.3. Localisation des défauts de capteurs

Lorsqu’un défaut est détecté, il est nécessaire d’identifier la ou les variables qui

sont en cause : c’est la localisation de défauts. Pour la localisation de défauts par ACP,

on retrouve plusieurs approches :


– approche par structuration des résidus (Gertler et al., 1998), (Huang et Gertler,

1999), (Qin et Li, 1999). Le vecteur des résidus primaires t(k) est transformé en ré-

sidus secondaires ayant les propriétés de localisation recherchées. Pour des systèmes

de grande dimension, il est souvent difficile de trouver cette transformation car les

propriétés de localisation sont définies uniquement en fonction de l’occurrence des

défauts dans les résidus sans tenir compte des sensibilités des résidus aux défauts,

– approche par ACP partielles (Gertler et al., 1998), (Huang et Gertler, 1999). Elle

utilise des bancs de modèles ACP avec des ensembles de variables réduits et différents

d’un modèle à l’autre. L’objectif est de générer des résidus sensibles à certains défauts

et pas aux autres. Cependant, là aussi les modèles partiels sont construits uniquement

en fonction de l’occurrence des défauts dans les résidus alors qu’il faut également s’as-

surer que les modèles ACP réduits ont les capacités désirées en termes de détectabilité

des défauts,

– approche par calcul des contributions des variables à l’indicateur de détection(Macgregor et Kourti, 1995), (Wise et Gallagher, 1996), (Miller et al., 1998), (Har-

kat et al., 2002). Cette méthode consiste à calculer les contributions des différentes

variables à l’indicateur de détection, la variable ayant la plus grande contribution à la

statistique de détection (calculée à l’instant de détection) est la variable incriminée.

La plupart des contributions définies dans la littérature sont de simples approxima-

tions, les contributions exactes des variables à l’indicateur de détection ne pouvant

être calculées.

Dans la suite, nous allons utiliser une méthode de localisation basée sur le principe

de reconstruction (Dunia et Qin, 1998) et l’indicateur de détection Di proposé.

2.3.1. Localisation de capteurs défaillants par reconstruction

Cette méthode consiste à éliminer l’influence du défaut sur l’indicateur de détec-

tion lorsque la variable en défaut est reconstruite. Cependant, pour localiser un défaut

de capteur, les directions des défauts projetées dans l’espace résiduel ne doivent pas

être colinéaires (Dunia et Qin, 1998).

Notons D(j)i l’indicateur Di calculé après la reconstruction de la jème variable.

Pour étudier la propagation d’un défaut sur cet indicateur, nous allons nous intéresser

à l’expression du vecteur de mesure xj(k) dont la jème composante est reconstruite

(voir [7]) :

xj(k) = Gj x(k) [23]

avec :

GTj =

[ξ1 ξ2 · · · gj · · · ξm

]et gT

j =

[cT−j 0 cT

+j

]

1 − cjj

[24]

où x(k) est le vecteur de mesure affecté d’un défaut d’amplitude d(k) agissant dans

la direction ξf (voir [15]). Notons ξj la direction de reconstruction.

L’expression de xj(k) est alors donnée par :

xj(k) = Gj(xo(k) + ǫ(k)) + Gj ξfd(k) [25]


Si la variable en défaut est la variable reconstruite (j = f) alors :

Gj ξf = 0 [26]

A partir de l’équation [26], on constate que si la reconstruction se fait dans la

direction du défaut (j = f), l’effet du défaut est éliminé sur xj et par conséquent

sur l’indicateur D(j)i . L’indicateur D

(j)i qui se trouve en dessous du seuil de détection

indique que la jème variable est en défaut. On peut également utiliser un filtre EWMA

pour filtrer l’indicateur D(j)i , noté alors D

(j)i .

Ainsi, nous pouvons définir l’indicateur de localisation suivant à l’instant k :

A(j)i (k) =

D(j)i (k)

δ2i,α

[27]

La variable pour laquelle l’indicateur de localisation A(j)i est inférieur à un est la

variable défaillante.

Il est à noter que la méthode de localisation par reconstruction peut être utilisée

pour la localisation de défauts multiples en reconstruisant simultanément les variables

supposées en défauts (Dunia et Qin, 1998).

3. Application à un réseau de surveillance de la qualité

Dans cette partie, la procédure proposée de détection et localisation de défauts de

capteurs est appliquée à un réseau de surveillance de la qualité de l’air.

3.1. Position du problème

Le réseau de surveillance AIRLOR (Lorraine) se compose de douze stations de

mesures placées dans des sites ruraux, périurbains et urbains. Chaque station de sur-

veillance se compose d’un ensemble de capteurs de mesure des concentrations des

polluants suivants : le monoxyde de carbone CO, les oxydes d’azote (NO et NO2)

mesurés par le même analyseur, le dioxyde de soufre SO2 et l’ozone O3. Certaines

stations mesurent en plus des paramètres météorologiques (température, humidité re-

lative, rayonnement solaire global, pression atmosphérique, vitesse du vent et direc-

tion du vent). La mesure se fait en continu tous les quarts d’heure.

L’objectif est de déceler d’éventuelles anomalies de fonctionnement des capteurs

mesurant les concentrations d’ozone et d’oxydes d’azote (NO et NO2). Rappelons en

quelques mots la phénoménologie. L’ozone étant un polluant secondaire formé à partir

de réactions chimiques complexes entre les polluants primaires (NO, NO2 et COV),

il constitue des nappes se déplaçant en fonction des mouvements des masses d’air.

Par contre, les oxydes d’azotes sont des polluants primaires essentiellement émis par

l’activité humaine ; ces polluants sont donc plus localisés car leur concentration dé-

pend directement des sources d’émissions. La complexité du phénomène et l’absence


de mesures de certaines grandeurs essentielles rendent difficiles l’élaboration de re-

lations entre les mesures d’ozone et de NOx pour une station de mesure (Mourot etal., 1999). Notre objectif étant d’élaborer un modèle pour le diagnostic, nous avons

cherché, cette fois, à mettre en évidence les relations entre les polluants des différents

sites de mesure. Pour cela, nous avons utilisé l’analyse en composantes principales

qui nous semble particulièrement bien adaptée à la dimension élevée du processus

(ici le réseau de mesures) et au fort degré de corrélation existant au moins entre cer-

taines variables. Seul bémol, nous pouvons nous interroger sur les performances de

l’ACP compte tenu du caractère non linéaire et variant dans le temps du phénomène

de pollution photochimique.

Dans cette présentation, seulement 18 variables ont été considérées. Les sites de

mesure choisis sont géographiquement voisins. La matrice X contient donc 18 va-

riables v1, v2, . . . , v18 correspondant, respectivement, à l’ozone O3, le dioxyde d’azote

NO2 et le monoxyde d’azote NO pour six stations de mesure proches de l’agglomé-

ration nancéienne. S’agissant d’une étude de faisabilité, nous nous sommes limités à

analyser de courtes périodes de mesures et nous avons simulé des défauts dont l’am-

plitude est réglée en fonction des incertitudes de mesures fournies par les spécialistes

du réseau (environ 15 % de la mesure pour l’ozone). Le jeu de données utilisé est com-

posé de 1080 observations soit un peu plus de 11 journées. Les 800 premières obser-

vations ont été utilisées pour élaborer le modèle ACP et nous avons simulé des défauts

de capteurs sur les 280 observations restantes. Les données de la période considérée

présentent des niveaux de polluants faibles, moyens et élevés (figure 2).

3.2. Identification du modèle ACP

Pour l’identification du modèle ACP, la matrice des corrélations des mesures est

calculée. Une première analyse des corrélations a été réalisée. Seules les mesures des

concentrations d’ozone des différents sites ont des coefficients de corrélation significa-

tifs (supérieurs à 85 %). Ces premiers résultats sont en accord avec nos remarques sur

la phénoménologie des polluants. En effet, l’ozone formant des nappes, on retrouve

de fortes corrélations entre les mesures d’ozone des différents sites de mesures. Par

contre, les mesures des capteurs de NOx ne sont pas très corrélées entre elles car ce

sont des polluants très localisés. On entrevoit donc qu’une des seules possibilités pour

réaliser un diagnostic de fonctionnement de ces capteurs est de relier ces grandeurs

aux mesures d’ozone des différentes stations de mesure.

Une analyse préliminaire des données nous a permis de constater que les relations

entre les variables pouvaient être approximées par des relations linéaires statiques.

L’analyse des valeurs propres de la matrice de corrélation des données et du cumul

des pourcentages de corrélation expliquée par chaque valeur propre n’a pas permis

de déterminer le nombre de composantes à retenir car les valeurs propres ont une

décroissance exponentielle. La figure 1 montre l’évolution du critère de la variance

de l’erreur de reconstruction en fonction du nombre de composantes. Cette courbe

présentant un minimum pour ℓ = 7, un modèle ACP à sept composantes a été retenu

expliquant ainsi 91 % des corrélations entre les variables.


1 2 3 4 5 6 7 8 9 10 11

5

10

15

20

var

iance

Nombre de composantes

Figure 1. Evolution de la variance de l’erreur de reconstruction en fonction de ℓ

Dans le tableau 1, nous avons indiqué les variances de l’erreur de reconstruction

des différentes variables pour le nombre de composantes retenues. Toutes les variables

peuvent être reconstruites car leur variance est inférieure à 1. Cependant, les variables

9, 11, 12 et 15 ont des coefficients un peu élevés par rapport aux autres variables (en

gras dans le tableau) ce qui laisse présager quelques difficultés pour la suite. Il faut

noter que ces variables représentent les concentrations de NO et NO2 sur certains sites

urbains ou périurbains, i.e. proches des émissions. Globalement, les concentrations

d’ozone ont des variances de reconstruction beaucoup plus faibles que NO et NO2.

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ℓ = 7 .09 .11 .15 .10 .37 .41 .04 .29 .59 .04 .54 .57 .04 .37 .61 .09 .42 .37

Tableau 1. Variances des erreurs de reconstruction des différentes variables

La figure 2 présente les mesures et les estimations d’ozone, de NO2 et de NO

pour une station de mesure. Cette station péri-urbaine ayant les niveaux d’ozones les

plus élevés des six sites considérés et des niveaux de NOx proches de ceux d’une

station urbaine, les résultats obtenus pour cette station sont assez représentatifs de

ceux obtenus pour l’ensemble des stations. Pour la concentration d’ozone, on constate

que les valeurs les plus élevées sont légèrement sous-estimées par le modèle, ce qui

n’est pas le cas pour les autres stations. Par contre, les niveaux de NO2 et de NO sont

bien estimés.

Globalement, compte tenu de la complexité des phénomènes impliqués, les résul-

tats obtenus sont très satisfaisants. En effet, on estime la plupart des pics de NO, O3

et NO2 qui sont les niveaux prépondérants pour les procédures d’alerte. De plus, dans

le cas des oxydes d’azote (NO et NO2) qui sont des polluants plus localisés, et donc

plus difficiles à modéliser, l’estimation de ces deux grandeurs reste correcte pour les

faibles valeurs ainsi que pour les valeurs élevées.

En conclusion, nous n’avons pas vu la nécessité de remettre en cause l’utilisation

de l’ACP linéaire pour modéliser les relations entre les différentes variables. Cepen-

dant, comme nous avons pu le constater, certaines variables étant moins bien estimées


que d’autres, nous allons maintenant examiner l’effet de ces erreurs de modélisation

sur la détection et localisation de défauts de capteurs.

0 200 400 600 800 1000

50

100

150

0 200 400 600 800 1000

100

200

300

400

500

0 200 400 600 800 1000

100

200

300Mesures Estimations

Temps

NO

NO

2O

3

Figure 2. Mesures et estimations des différents polluant pour une station de mesure

3.3. Détection et localisation de défauts de capteurs

Ayant identifié le modèle ACP à partir de données réputées saines, il est possible

d’appliquer la procédure de détection et localisation de défauts de capteurs proposée.

Dans un premier temps, nous présentons quelques exemples simples de détection

de défauts de capteurs sur chaque type de capteurs (O3, NO et NO2) pour illustrer

cette procédure. Les défauts simulés sont des défauts additifs constants dont l’ampli-

tude est nettement supérieure aux incertitudes de mesures. Ensuite, nous réalisons une

étude plus systématique pour comparer les performances de l’indicateur de détection

proposé par rapport à l’indicateur SPE classiquement utilisé.

3.4. Quelques exemples

Pour ce premier exemple, nous avons simulé un défaut dont l’amplitude s’élève à

20 % de la plage de variation de la mesure v7 (O3) entre les instants 801 et 1080. Sur


cet exemple, nous allons illustrer nos propos concernant les limitations de l’indicateur

SPE. Ainsi, la figure 3 présente l’évolution de SPE en présence d’un défaut affectant

la variable v7. Comme on peut le constater, le défaut n’est pas détecté à partir de SPEà cause des erreurs de modélisation. En appliquant la procédure de détection utilisant

l’indicateur Di, le défaut a été nettement détecté avec l’indicateur D2 (figure 4).

0 200 400 600 800 10000

1

2

3

4

SP

E

Temps

Figure 3. Evolution de l’indicateur de détection SPE en présence d’un défaut affec-tant v7

0 100 200 300 400 500 600 700 800 900 10000

0.2

0.4

D2

Temps

Figure 4. Evolution de l’indice D2 avec un défaut affectant la variable v7

Le défaut étant détecté, nous cherchons à localiser la variable incriminée avec

la procédure de reconstruction appliquée à l’indicateur de détection D2. La figure 5

présente l’évolution des indicateurs de détection calculés après la reconstruction des

neuf premières variables. L’indicateur calculé après reconstruction de la variable v7

est le seul ne dépassant pas son seuil, ce qui implique que v7 est la variable en défaut.

Après localisation de la variable en défaut, cette dernière est reconstruite en utili-

sant le modèle ACP et les mesures des autres capteurs. La figure 6 représente l’évo-

lution de la variable v7 (ozone), l’évolution de cette variable avec le défaut simulé et

la reconstruction de cette dernière. Globalement, les concentrations d’ozone recons-

truites représentées sur la figure 6 sont des estimations assez correctes des mesures

réelles, en particulier les valeurs élevées des niveaux d’ozone.

La simulation précédente montre que la procédure de détection et localisation est

efficace pour la variable v7 ; il en est de même pour les mesures d’ozone des autres


stations car ces variables étant assez corrélées entre elles, il est possible d’extraire des

relations de redondance linéaires les liant.

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

0.6

600 800 10000

0.2

0.4

600 800 10000

0.2

0.4

D(7

)2

D(4

)2

D(1

)2

D(8

)2

D(5

)2

D(2

)2

D(9

)2

D(6

)2

D(3

)2

Temps Temps Temps

Figure 5. Evolution de l’indicateur de détection D2 après reconstruction des neufpremières variables

500 600 700 800 900 1000

0

50

100

150

O3

Temps

Mesures avec défaut

Mesures sans défaut

Reconstructions

Figure 6. Reconstruction de la variable v7 (O3) en défaut

Maintenant, intéressons nous aux oxydes d’azote. Dans la suite nous avons simulé

un défaut affectant la variable v2 représentant le NO2 de la première station avec une

amplitude de 20 % de la plage de variation de cette variable entre les instants 801 et

1080. Le défaut est aisément détecté grâce à l’indicateur D1 (figure 7).

Comme dans le cas de l’ozone, pour la localisation du capteur défaillant, on ap-

plique la procédure de reconstruction à l’indicateur de détection D1. L’indicateur de


localisation A1 est représenté sur la figure 8 où la variable v2 est celle pour laquelle

l’indicateur A1 est inférieur à 1, ce qui indique bien que v2 est la variable incriminée.

0 100 200 300 400 500 600 700 800 900 10000

0.2

0.4

0.6

0.8

D1

Temps

Figure 7. Evolution de l’indicateur de détection D1 avec un défaut affectant la va-riable v2

0 2 4 6 8 10 12 14 16 180

0.5

1

1.5

2

A(j

)1

Variables

Figure 8. Indicateur de localisation A1 après reconstruction de chaque variable

Après avoir détecté et localisé un défaut sur la variable v2, cette dernière est re-

construite en utilisant le modèle ACP et les mesures des autres capteurs (figure 9).

Connaissant la difficulté à appréhender l’évolution de cette variable, le résultat obtenu

est jugé très satisfaisant.

Nous avons effectué des simulations identiques pour les autres capteurs de NO2

et les capteurs de monoxyde d’azote (NO) ; les performances de détection/localisation

obtenues sont tout à fait pertinentes pour ces capteurs.

3.5. Performances de la procédure de détection et localisation de défauts

Les performances de la procédure proposée de détection et localisation de défauts

de capteurs sont en grande partie basées sur l’efficacité de l’indicateur de détection

Di et sur la capacité à reconstruire les variables. Pour évaluer ses performances, nous

présentons ici les résultats de trois tests :

– comparaison des conditions de détectabilité des indicateurs Di et SPE,


– comparaison des taux de bonne détection des indicateurs Di et SPE,

– test de la qualité de la reconstruction des variables.

500 600 700 800 900 1000

0

100

200

300

400

500

NO

2

Temps

Mesures avec défaut

Mesures sans défaut

Reconstructions

Figure 9. Reconstruction de la variable v2 (NO2) en défaut

3.5.1. Comparaison des conditions de détectabilité des défauts

Nous avons étendu à l’indicateur Di la condition de détectabilité des défauts in-

troduite par Qin et al. (1997) pour SPE. La sensibilité aux défauts ϑi,j de Di par

rapport à SPE est définie comme le rapport des amplitudes des défauts vérifiant ces

conditions de détectabilité des défauts des deux indicateurs pour la même variable j :

ϑi,j =δα

τi,α

∥∥∥ξ

(i)j

∥∥∥

∥∥∥ξj

∥∥∥

[28]

où ξ(i)j = (I − Ci)ξj , Ci = P (i) ˆP (i)

T

et P (i) est formé par les i derniers vecteurs

propres de la matrice Σ.

La sensibilité aux défauts a été calculée pour chaque variable (tableau 2). A partir

de ce tableau, il est clair qu’il existe au moins un indicateur Di (i = 1, ..., (m − ℓ))qui est plus sensible ou au moins aussi sensible aux défauts que l’indicateur SPE.

Par exemple, l’indicateur D1 peut détecter un défaut affectant la variable v2 avec une

amplitude 11 fois plus petite que celle que l’on peut détecter avec SPE.

3.5.2. Comparaison des taux de bonne détection des indicateurs Di et SPE

Nous nous sommes placés ici dans des conditions de test particulièrement diffi-

ciles pour mieux discriminer les capacités des deux indicateurs. Pour cela, nous avons

simulé des défauts d’amplitude aléatoire comprise entre 10 et 30 µg/m3 affectant

les différentes variables. Les bornes de cet intervalle sont très proches des erreurs

d’estimation obtenues par le modèle ACP pour les différentes variables. Le tableau 3

regroupe, pour chaque variable, les taux de bonne détection des défauts pour les deux


indicateurs Di et SPE. A partir de ces résultats, on constate que les taux de bonne

détection de l’indicateur Di sont nettement supérieurs à ceux de SPE.

3.5.3. Test de la qualité de la reconstruction des variables

Sur le tableau 3, nous avons représenté les taux de bonne reconstruction dans la

dernière colonne, une variable étant bien reconstruite si l’erreur de reconstruction est

inférieure à l’écart type de l’erreur d’estimation de la variable considérée. On peut

constater que la reconstruction utilisant le modèle ACP donne de bons résultats per-

mettant ainsi de proposer des valeurs de remplacement pour les mesures aberrantes

des différents capteurs.

4. Conclusion

Dans ce papier, nous proposons une méthode de diagnostic basée sur l’analyse

en composantes principales pour la détection et la localisation de défauts de capteurs

d’un réseau de surveillance de la qualité de l’air.

Tout d’abord, nous avons montré comment élaborer le modèle ACP du système

en minimisant la variance de l’erreur de reconstruction des différentes variables ce

qui permet la prise en compte de la détectabilité des défauts lors de la synthèse du

modèle. Ensuite, nous avons proposé un nouvel indicateur de détection de défauts de

capteurs. Il est basé sur les sommes successives des carrés des dernières composantes

principales. Avec cet indicateur, la détection est réalisée successivement dans diffé-

rents sous-espaces de l’espace résiduel en commençant par les sous-espaces les moins

sensibles aux perturbations. Enfin, la reconstruction des variables permet à la fois de

localiser les capteurs défaillants et d’estimer l’amplitude des défauts.

La méthode proposée a été appliquée avec succès à la détection et la localisation de

défauts de capteurs d’ozone et d’oxydes d’azote. Relier l’ensemble des grandeurs des

différents sites de mesure à l’aide du modèle ACP du réseau nous a permis d’établir

les relations de redondance nécessaires à la détection et à la localisation des défauts

de capteurs. Nous avons présenté, dans un premier temps, sur des exemples simples

l’intérêt de notre approche. Ensuite, nous avons montré que, pour notre application,

l’indicateur de détection Di a des performances supérieures à l’indicateur SPE clas-

siquement utilisé. Enfin, la reconstruction de la variable défaillante a permis d’obtenir

une estimation très satisfaisante de cette dernière.

Les résultats de cette étude de faisabilité, réalisée sur de courtes périodes de me-

sures, doivent être confirmés, d’une part, sur des périodes de mesures plus longues et,

d’autre part, en quantifiant de manière systématique les performances de la méthode

par une étude de type Monte-Carlo. Pour des périodes de mesure plus longues, cer-

taines caractéristiques du phénomène (non-linéarité et variation dans le temps) seront

certainement plus marquées ; nous envisageons, d’ores et déjà, d’utiliser des exten-

sions de l’ACP telles que l’ACP non linéaire (Harkat et al., 2005) ou l’ACP récursive

(Li et al., 2000).

Diagnostic de fonctionnement par ACP 435d1

d2

d3

d4

d5

d6

d7

d8

d9

d10

d11

d12

d13

d14

d15

d16

d17

d18

ϑ1

3.21

11.6

510

.60

1.09

0.88

0.29

1.20

0.57

0.10

0.94

0.11

0.41

1.87

0.73

0.17

0.19

0.09

0.18

ϑ2

1.67

6.08

5.52

1.20

0.96

0.18

4.43

1.97

1.65

1.27

0.39

0.44

5.35

1.13

0.10

0.72

0.66

0.15

ϑ3

1.51

4.28

3.89

1.14

0.78

0.14

3.21

1.42

0.13

4.39

1.09

0.34

3.81

0.88

0.48

2.31

1.04

0.13

ϑ4

1.27

3.62

3.29

1.91

1.30

0.18

3.80

1.33

0.15

3.80

0.92

0.30

3.80

0.85

0.40

2.56

1.19

0.11

ϑ5

2.40

2.69

2.63

2.33

1.27

0.48

2.83

1.20

0.42

2.82

0.68

0.23

2.85

0.62

0.46

1.92

0.88

0.16

ϑ6

2.37

2.23

2.18

2.24

1.43

0.43

2.37

1.00

0.39

2.40

0.64

0.43

2.36

0.68

0.41

2.32

0.96

0.14

ϑ7

1.81

1.70

1.66

1.82

1.47

1.08

1.83

1.43

0.47

1.84

1.06

0.83

1.81

0.63

0.91

1.77

0.73

0.25

ϑ8

1.56

1.46

1.45

1.57

1.34

1.21

1.58

1.33

0.48

1.58

0.94

0.75

1.56

0.55

0.80

1.54

1.49

1.47

ϑ9

1.35

1.27

1.25

1.36

1.23

1.29

1.36

1.23

0.46

1.37

1.01

0.95

1.36

1.10

1.04

1.36

1.31

1.30

ϑ10

1.20

1.12

1.11

1.21

1.20

1.20

1.20

1.11

0.45

1.21

1.20

1.17

1.21

1.18

1.19

1.21

1.21

1.20

Tab

leau

2.

Sens

ibil

ité

del’

indi

cate

urD

(i)(i

=1,

...,

m−

ℓ)pa

rra

ppor

tàl’

indi

cate

urS

PE

Var

iable

sT

BD

TB

R

D(i

)S

PE

O3−

BR

A75

%4

%94

%N

O2−

BR

A92

%4

%78

%N

OB

RA

99

%7

%92

%O

3−

DA

N84

%21

%85

%O

3−

FL

E89

%11

%90

%N

O2−

FL

E88

%45

%86

%O

3−

ST

N89

%8

%88

%N

O2−

ST

N80

%59

%85

%O

3−

TO

M97

%6

%88

%N

O2−

TO

M97

%89

%85

%N

OT

OM

100

%97

%84

%O

3−

LU

N82

%15

%90

%N

O2−

LU

N70

%30

%86

%

Tab

leau

3.

Taux

debo

nne

déte

ctio

n(T

BD

)po

urD

(i)

etS

PE

,tau

xde

bonn

ere

cons

truc

tion

(TB

R)

des

diffé

rent

esva

riab

les


5. Bibliographie

Box G.E.P., « Some theorems on quadratic forms applied in the study of analysis of variance

problems : Effect of inequality of variance in one-way classification », The Annals of Ma-thematical Statistics, vol. 25, 1954, p. 290-302.

Dunia R., Qin S.J., « Subspace approach to multidimentional identification and reconstruction »,

AIChE Journal, vol. 44, 1998, p. 1813-1831.

Gertler J., Weihua L., HUANG Y., MCAVOY T., « Isolation enhanced principal component

analysis », 3rd IFAC Workshop on On-line Fault Detection and Supervision in the Chemical

Process Industries, Lyon, June 4-5, France, 1998.

Harkat M.F., Mourot G., Ragot J., « Différentes méthodes de localisation de défauts basées sur

les dernières composantes principales », Conférence Internationale Francophone d’Auto-matique, CIFA2002, Nantes, France, 6-8 juillet 2002.

Harkat M.F., Mourot G., Ragot J., « Sensor fault detection and isolation of an air quality moni-

toring network using non linear principal component analysis »,16th IFAC World Congress,

Prague, Czech Republic, July 4-8, 2005.

Huang Y., Gertler J., « Fault isolation by partial PCA and partial NLPCA », IFAC’99, 14thTriennial world congress, Beijing, P. R. China, 1999, p. 545-550.

Ku W., Storer R.H., Georgakis C., « Disturbance detection and isolation by dynamic principal

component analysis », Chemometrics and Intelligent Laboratory Systems, vol. 30, 1995,

p. 179-196

Li W., Yue H., Valle S., Qin S.J., « Recursive PCA for adaptive process monitoring »Journal ofProcess Control, vol. 10, 2000, p. 471-486

Li W., Qin S.J., « Consistent dynamic PCA based on errors-in-variables subspace identifica-

tion. », Journal of Process Control, vol. 11, 2001, p. 661-678

MacGregor J.F., Kourti T., « Statistical process control of multivariate process », Control Engi-neering Practice, vol. 3, no 3, 1995, p. 403-414.

Miller P., Swanson R.E., HECKLER C.E., « Contribution plots : A missing link in multivariate

quality control », Applied Mathematics and Computer Science, vol. 8, no 4, 1998, p. 775-

792.

Mourot G., Gasso K., Ragot J., « Modelling ozone concentration using a Takagi-Sugeno mo-

del », Control Engineering Practice, vol. 7, 1999, p. 707-715.

Qin S.J., Hongyu Y., Dunia R., « Self validating inferential sensors with application to air emis-

sion monitoring », Industrial & Engineering Chemistry Research, vol. 36, 1997, p. 1675-

1685.

Qin S.J., Li W., « Detection, identification and reconstruction of faulty sensors with maximized

sensitivity », AIChE Journal, vol. 45, no 9, 1999, p. 1963-1976.

Qin S.J., Dunia R., « Determining the number of principal components for best reconstruction »,

Journal of Process Control, vol. 10, 2000, p. 245-250.

Valle S., Weihua L., Qin S.J., « Selection of the number of principal components : The variance

of the reconstruction error criterion with a comparison to other methods ». Industrial &Engineering Chemistry Research, vol. 38, 1999, p. 4389-4401.

Qin S.J., Wang J., « A new subspace identification approach based on principal component

analysis ». Journal of Process Control, vol. 12, 2002, p. 841-855.

Wise B.M., Gallagher N.B., « The process chemometrics approach to process monitoring and

fault detection », Journal of Process Control, vol. 6, no 6, 1996, p. 329-348.

Diagnostic de fonctionnement de capteurs d’un réseau de surveillance de la qualité de l’air...

Documents

Transcript of Diagnostic de fonctionnement de capteurs d’un réseau de surveillance de la qualité de l’air...