Classificateurs neuronaux et statistiques sur images satellitaires: une méthodologie semi-dirigée
-
Upload
independent -
Category
Documents
-
view
0 -
download
0
Transcript of Classificateurs neuronaux et statistiques sur images satellitaires: une méthodologie semi-dirigée
Classificateurs neuronaux et statistiques sur images satellitaires: une
méthodologie semi-dirigée
SILVIO GRIGUOLO 1 et MANUEL PONSO
1 Dipartimento di Analisi Economica e Sociale del Territorio (DAEST),
S.Croce 1957, 30135 VENEZIA (Italie); téléphone: +39(41)257 2110;
télécopieur: +39 (41)524 0403, CÉ: [email protected]
Résumé
La reconnaissance de la couverture du sol à partir des classifications
automatiques est l’une des recherches méthodologiques importantes en
télédétection. Avec cette méthode on a l’avantage de disposer d’une couche
classifiée, à mettre en correspondance avec des informations d’autres
sources dans un SIG, ou bien à utiliser comme donné de base dans la
construction d’un modèle dynamique de l’environnement.
Dans cet article nous développons des comparaisons entre classificateurs
non-dirigés neuronaux (réseaux auto-organisants de Kohonen) et statistiques
(nuées dynamiques de Diday) qui nous amenent à proposer une procédure
semi-dirigée capable de forcer la reconnaissance correcte des pixels
confondus avec des thèmes non appropriés dans une première classification
exploratoire.
1. Introduction
Les satellites produisent de façon presque continue de l’information en
forme numérique multidimensionnelle. L'ordinateur peut synthétiser
utilement l'information la plus importante en groupant en classes homogènes
les unités d’observation minimales (pixels).
La classification automatique a l'avantage de réduire la subjectivité inhérente
à chaque tentative de représentation simplifiée de la réalité. En plus elle est
rapide et les coûts opérationnels sont réduits. Plusieurs types des
classificateurs, neuronaux ou statistiques, ont été proposés dans l'effort de
réduire le besoin d'intervention humaine. Néanmoins, une classification
complètement automatique paraît encore un objectif impossible à atteindre.
Quelques grands projets de recherche en cours comme IGBP (Belward,
1997) ou CORINE (CEC, 1993) visent à construire des bases de données de
la couverture du sol au plan continental ou planétaire. Les résultats sont
fréquemment destinés à fournir une entrée pour des modèles de dynamique
environnementale à l'échelle continentale (cycle des nitrates, diffusion des
pesticides, capture des polluants de l'atmosphère, pour ne mentionner que
quelques modèles possibles). PELCOM (Pan European Land Cover for
Monitoring) est un projet partiellement financé par la CE avec l’objectif de
construire une base de données de la couverture du sol de l’Europe à
l'échelle de 1,1 km, à partir d'images AVHRR de NOAA.
Dans le cadre de la définition de la méthodologie à adopter par PELCOM
nous avons développé les considérations de la section 2, où nous discutons
les avantages et les inconvénients des approches dirigés ou non-dirigés et
nous proposons une méthode semi-dirigée convenable pour classificateurs
soit neuronaux, soit statistiques. Dans la section 3 nous présentons
brièvement les classificateurs utilisés: le réseau auto-organisant de Kohonen
et un logiciel de classification statistique (ADDAPIX).
Nos considérations s’appliquent à n’importe quel tableau de données
satellitaires. Même si nos analyses empiriques portaient pour la plupart sur
des images AVHRR, nous avons préféré offrir ici, pour des raisons
purement pédagogiques, un exemple très simple sur une partie d'une image
TM de Landsat. Nous avons essayé de pousser les classificateurs à
reconnaître des thèmes qui pour nous étaient évidents, évitant la confusion
entre des couvertures qui, même semblables du point de vue radiometrique,
étaient tout à fait différentes.
2. La classification: quelques considérations méthodologiques essentielles.
Le problème de la reconnaissance d'éléments d'intérêt dans une scène (c'est-
à-dire, sa segmentation ou sa classification) est central en télédétection. Les
images en fausses couleurs limitent à trois les canaux qu'on peut considérer
simultanément. Même si on choisit soigneusement les canaux les plus
pertinents pour les objectifs particuliers de la recherche, il est évident qu'une
description exhaustive du comportement des pixels exige en général l'usage
simultané d'un nombre plus grand de canaux. La classification est une
opération analytique complexe qui synthétise l'information fournie par un
ensemble d'images qui offrent une description matricielle
multidimensionnelle de la région d'intérêt.
Une classification peut suivre une approche statistique ou neuronale, être
dirigée ou non-dirigée. Les méthodes neuronales n'opèrent pas d'après un
modèle pré-défini: ils sont théoriquement capables de traiter tout type de
distribution. Mais, on doit remarquer que la définition de l'architecture du
réseau la plus appropriée pour un problème demande du temps et le résultat
n'est pas toujours satisfaisant.
Une approche dirigée est approprié quand les thèmes sont définis a priori
(par exemple: bâti, route, eau, végétation, etc.). On présente au
classificateur une base d'apprentissage formée des pixels pour lesquels on
indique explicitement un thème d'attribution. A partir de la base
d’apprentissage le logiciel calcule un ensemble des paramètres statistiques,
ou des fonctions discriminantes, ou les poids d'un réseau neuronal de
rétropropagation: en quelques mots, il construit des règles appropriées de
classification qui lui permettent de maximiser le nombre des pixels inclus
dans l'ensemble d'apprentissage qu'il est capable d'assigner correctement.
Ces règles sont utilisées dans la phase opérationnelle pour classer, sur la
base de leurs vecteurs d'attributs, les autres unités statistiques dont le thème
est inconnu.
Au contraire, aucun thème n'est défini a priori dans le cas non-dirigé: les
pixels sont groupés de façon automatique, d'après leur ressemblance globale,
en classes dont le nombre est décidé par l'analyste ou déterminé par
l'algorithme en phase d’exécution. Les classes qui en résultent sont les plus
homogènes possible.
Nous avons utilisé tout d'abord un classificateur neuronal dirigé de type
rétropropagation. La plus grande difficulté concernait la préparation de
l'ensemble d'apprentissage: selon la littérature, il est nécessaire d'extraire de
l’image à classer un ensemble important de pixels (2-5 % du total). Comme
les thèmes doivent être définis d'avance, il peut se passer que des pixels de
type rare, pour lesquels on n’a pas prévu un thème spécifique, soient
assignés à un thème inapproprié.
Dans la pratique courante, cette approche devient l’une des raisons
principales de confusion dans la classification: comme il serait très
laborieux de s’occuper de chaque pixel, les logiciels courants invitent
l'analyste à choisir quelques zones de l'image, leur associant une étiquette de
classe. Car les pixels inclus dans une zone sont souvent bien loin d'être
homogènes, les groupes que le classificateur en dérive sont généralement
dispersés dans l'espace de représentation, et partialement superposés. Les
erreurs de classification sont rarement la responsabilité du classificateur: il
sont la conséquence de la manière habituelle de préparer l’ensemble
d’apprentissage.
Utilisant une approche non-dirigée (essentiellement exploratoire), nous
avons préféré alors de laisser que les groupes se forment spontanément
autour des combinaisons les plus fréquentes des valeurs des canaux. Cela
évite la nécessité de spécifier la classe d'une longue liste des points:
l'attribution des points aux classes est faite automatiquement, selon un
critère de distance minimale dans l'espace de représentation.
Malheureusement, nos analyses avec des classificateurs non dirigés,
neuronaux ou statistiques, ont prouvé qu’une méthode complètement
automatique satisfait rarement les attentes de l'analyste. Dans la construction
des groupes les deux méthodes opèrent une compensation entre nombre et
particularité: pixels dont les caractéristiques sont très particulières, mais qui
sont rares, ne sont en général pas assignés à une leur classe spécifique, et ils
s'ajoutent à la classe existante la plus semblable (mais à fois pas
suffisamment semblable...). Si on utilise les valeurs radiometriques des
bandes pour classer une image TM qui inclue peu de points d'eau, il est
facile que ceux-ci, même si spectralement bien caractérisés, ne soient pas
capables de former une classe et soient confondus avec d'autres (par
exemple, avec des parties de végétation ombragée, ou avec d'autres points
caractérisés par des valeurs plutôt basses sur tous les canaux).
L’exemple mentionné est simple, mais le problème est général. Il est causé
par la manière comme les classificateurs traitent les points rares, non par
l’ensemble particulier de variables choisies. Une augmentation limitée du
nombre des classes est généralement insuffisante à le résoudre, et d’autre
coté ce nombre ne peut pas être poussé au delà d'une valeur raisonnable.
Nous avons imaginé trois solutions possibles.
1. On peut attacher un poids majeur aux secteurs de l’image qui incluent des
points rares, du type qu’on désire mettre en évidence (fig. 1).
2. On peut sélectionner quelques secteurs de l’image qui incluent un
nombre suffisant de points de tous les thèmes à reconnaître, donnant un
poids nul aux autres points (fig. 3). Les classificateurs opèrent de façon
non-dirigée sur le sous-ensemble sélectionné, qui se conduit en un certain
sens comme une base d’apprentissage. Après d’avoir vérifié l’utilité des
groupes obtenus, tous les autres points de l’image sont assignés à la
classe la plus similaire.
3. On peut ajouter à la partie d’image qu'on veut segmenter d'autres parties
de la même image, qui comprennent beaucoup de points du type rare
qu’on désire renforcer (fig. 4).
Les trois méthodes mènent à des résultats substantiellement équivalents,
mais les méthodes 1 et 2 sont les plus simples du point de vue opérationnel.
On crée une image matricielle auxiliaire de la même taille que celle des
images utilisées pour la classification. Cette image enregistre les poids
associés avec les pixels (0 pour les points exclus): l'effet désiré est atteint en
assignant des poids élevés aux points rares mais particuliers.
Comment assigner ces poids sans devoir s’occuper des caractéristiques des
points individuels? Comme il est montré en figure 1, il suffit de délimiter
interactivement, avec la souris, les parties d’image caractérisées par une
présence considérable des thèmes à mettre en évidence, et d’assigner un
poids convenable à chaque région encadrée. Le logiciel utilisé pour ça
construit l'image synthétique qui enregistre les poids et qui contrôlera le
classificateur.
La facilité opérationnelle de la procédure décrite est évidente. On ne doit pas
s’occuper des caractéristiques des points-image individuels: après avoir
constaté par exemple que dans une analyse préliminaire une thème pour
l'eau n'a pas émergé spontanément, l'analyste peut délimiter quelques zones
où il sait que les pixels d'eau sont fréquents, leur assigner un poids et répéter
l’analyse. C’est un chose facile avec quelques connaissances du terrain.
3. Description des classificateurs utilisés
3.1. Classificateurs neuronaux: les réseaux auto-organisants de Kohonen
Une classification dirigée affecte chaque unité statistique à une et une seule
classe d’un ensemble des thèmes établi a priori. On présente au réseau
neuronal une base d’apprentissage de n pixels: pendant l’instruction le
système modifie les poids Wij associés aux connexions entre neurones de
façon à générer les sorties correctes. L’algorithme de rétropropagation
(backpropagation) est la méthode d’apprentissage la plus connue. Une fois
l’apprentissage terminé, la reconnaissance des caractéristiques des pixels
peut se produire en temps réel.
Teuwo Kohonen (1989) a introduit un type de réseau neuronal indiqué pour
la classification non dirigée. Les exemples présentés au réseau consistent
seulement en un vecteur d’attributs pour chaque pixel. Les thèmes ne sont
pas donnés a priori, mais construits par le classificateur. Dans sa formulation
la plus commune, un réseau de Kohonen consiste en un ensemble
bidimensionnel de noeuds (neurones) interconnectés à former une structure
rectangulaire ou hexagonale. Chaque noeud de coordonnées (i, j), est associé
à un vecteur mij qui a la même taille des vecteurs qui décrivent les unités à
classer. Les valeurs initiales des vecteurs mij sont en général choisies par
hasard dans l’espace de représentation.
En phase d'apprentissage, le classificateur compare le vecteur décrivant
chaque unité x avec tous les vecteurs mij associées aux noeuds du réseau et
assigne l’unité x au neurone le plus similaire (c’est-à-dire le plus près dans
l’espace de représentation selon une métrique appropriée, communément
celle de la distance euclidienne). Les vecteurs associés au noeud vainqueur
et à tous les noeuds plus proches sur le réseau sont modifiés de façon à
augmenter leur similarité avec l’unité x. Indiquant avec mk la composante k
du vecteur m, associé avec un noeud à modifier, avec xk la composante
homologue de x et avec t le temps passé du début de l’apprentissage, on a
m t m t h t x t m tk k k k( ) ( ) ( )[ ( ) ( )]+ = + −1 ∀k
La fonction h t( ) , dite fonction de voisinage, dépend de la distance mesurée
sur le réseau entre le noeud qu’on est en train de modifier et le noeud
vainqueur: sa valeur diminue de façon monotone avec le temps.
Initialement, les noeuds du réseau sont affectés par des variations fortes
mais, avec le temps, la fonction de voisinage et le coefficient
d’apprentissage diminuent et on assiste à la lente apparition de noeuds dont
les vecteurs associés représentent bien les caractères de la base
d’apprentissage.
Une fois l’apprentissage terminé, on peut classer des autres unités
statistiques les attribuant aux classes obtenues. Si on présente au réseau des
unités aux caractères connus et si on observe où elles vont se placer sur le
réseau, on parvient à associer aux différents noeuds des étiquettes, créant
ainsi une grille d’interprétation.
3.2. Le classificateur statistique ADDAPIX
Comme classificateur statistique nous avons utilisé la routine de
classification non hiérarchique incluse dans le logiciel ADDAPIX,
développé pour l’analyse d’images satellite (Griguolo, 1996), en ajoutant la
possibilité d’assigner, en phase d’apprentissage, des poids opportuns à des
parties sélectionnées de l’image. Le tableau pixels x caractères est soumis à
un’analyse en composantes principales (ACP), avec le double objectif de
réduire la dimension de la représentation, la limitant aux premiers facteurs
qui sont les plus révélateurs, et d’atténuer les erreurs stochastiques, chargés
par la méthode sur les derniers facteurs, qui sont éliminés.
L’analyste décide interactivement combien de composantes il veut garder
pour la classification, qui est calculée à partir d’un ensemble de centres
d’agrégation choisis au hasard ou bien dans les régions de densité maximale
de l’espace de représentation. Chaque partition est améliorée itérativement,
en réassignant les unités aux groupes en fonction d’un critère de distance
minimale jusqu’à obtenir un optimum relatif.
3.3. Comparaison des deux classificateurs
Un réseau de Kohonen n’est pas très différent d’un classificateur statistique
non hiérarchique; cette opinion est bien fondée dans la littérature et nous
renvoyons à Pao (1990). Ici nous nous limitons à observer que la méthode
de mise à jour des classes dans le chemin itératif vers une partition optimale
est tout à fait différente. Dans le cas du réseau neuronal, on modifie aussi les
noeuds proches au vainqueur, alors que dans le cas statistique, suivant
l’algorithme proposé par Diday (1971), la position des centres de classe est
mise à jour à la fin de chaque cycle, de façon telle que chaque centre
coïncide avec le centre de gravité de l’ensemble des pixels assignés à la
classe.
Habituellement, dans le cas d’un classificateur statistique non dirigé, on ne
distingue pas entre phase d’apprentissage et opérationnelle, et la
classification affecte directement toutes les unités. Mais cela n’est pas
impératif: on peut déterminer les centres de classe sur une image masquée
(comme la figure 4), qui contienne tous les thèmes désirés, assignant ensuite
à la classe la plus similaire les pixels non utilisés dans l’apprentissage.
4. Conclusions
La méthode semi-dirigée décrite épargne la pénible et contestable
construction d’un ensemble d’apprentissage, évitant en même temps que des
pixels peu fréquents mais bien caractérisés, qu’on voudrait voir assignés à
une leur classe spécifique, soient agrégés dans une même classe avec des
autres pixels quelque peu différents, appauvrissant ainsi la qualité de la
partition. Même si le problème est commun aux deux classificateurs, nos
analyses indiquent que le seuil minimal de fréquence nécessaire à
l’allocation d’une classe spécifique est mineur dans les cas du classificateur
statistique, qui parait donc plus sensible.
5. Références
Belward, A.S. 1997. The IGBP-DIS Global 1 km Land Cover Data Set -
Proposal and Implementation Plan. IGBP-DIS Working Paper, Toulouse,
polycopié (en cours de publication).
CEC 1993. CORINE Land Cover- Technical Guide. EUR 12585 EN, Office
for Official Publications of the European Communities, Luxembourg, ISBN
92-826-2578-8.
Diday, E. 1971. “Une nouvelle méthode en classification automatique et
reconnaissance des formes", Revue de Statistique Appliquée, 19, 2, p. 19-34.
Griguolo, S. 1996. ADDAPIX: a programme for pixel-by-pixel
classification for zoning and monitoring. Technical Report
SD:GCP/INT/578/NET, UN-FAO, Rome, 78 p.
Kohonen T. 1989. Self-Organization and Associative Memory. (3rd ed.),
Springer Verlag, New York, 312 p.
Pao, Y.H. 1990. Adaptative Pattern Recognition and Neural Networks.
Addison-Wesley, New York, 240 p.
Figure 1 - Vérone (Italie), partie d’une image TM de Landsat (9 x 3 km).Utilisant les bandes 1 à 5 et 7, même avec 16 classes on ne parvient pas àisoler nettement les pixels du fleuve. On résout le problème associant unpoids dix fois plus haut aux parties encadrées de l’image.
Figure 2 - Image en 16 classes obtenue en pondérant les pixels commeindiqué dans la figure 1. À droite le centre de la ville, avec le fleuve bienreconnaissable. Un agrandissement montrerait les ponts, car aussi les pixelsqui mélangent eau et matériel inerte sont assignés à une classe spécifique.
Figure 3 - Image synthétique utilisée pour l'apprentissage. L’image inclutassez de pixels pour tous les thèmes que le classificateur doit reconnaître(les étiquettes sont indicatives; les pixels en arrière-plan sont inactifs). Nousn’avons pas choisi seulement des pixels de l’image de Vérone, mais aussides pixels de végétation ombragée extraits de la région de la figure 4. Leclassificateur dressé réserve deux classes distinctes pour la végétation
ombragée et l’eau. Bien sûr, si on l’utilise pour classer l’image de Vérone,qui n’a pas des montagnes, la classe de végétation ombragée résultera vide.
Figure 4 - Bandes 1 à 5 et 7 de TM, image classée en 16 classes de la régionde Bassano del Grappa (31 x 31 km). La ville en haut à droite de l'image,traversée par la rivière. Nos classifications non-dirigées n’étaient pascapables de discriminer l’eau de la végétation des pentes ombragées demontagne: en raison de leur commune basse réflectance, les deux types depixel étaient systématiquement assignés à la même classe. L'ajout à l'imagede la bande inférieure, se composant d'une zone d'eau extraite de la lagunede Venise et d’une zone de bâti extraite de l’image de Vérone, répétéesquatre fois, a résolu le problème forçant l’assignation d’une classespécifique pour les pixels d'eau et l’identification des zones bâties et