Classificateurs neuronaux et statistiques sur images satellitaires: une méthodologie semi-dirigée

13
Classificateurs neuronaux et statistiques sur images satellitaires: une méthodologie semi-dirigée SILVIO GRIGUOLO 1 et MANUEL PONSO 1 Dipartimento di Analisi Economica e Sociale del Territorio (DAEST), S.Croce 1957, 30135 VENEZIA (Italie); téléphone: +39(41)257 2110; télécopieur: +39 (41)524 0403, CÉ: [email protected] Résumé La reconnaissance de la couverture du sol à partir des classifications automatiques est l’une des recherches méthodologiques importantes en télédétection. Avec cette méthode on a l’avantage de disposer d’une couche classifiée, à mettre en correspondance avec des informations d’autres sources dans un SIG, ou bien à utiliser comme donné de base dans la construction d’un modèle dynamique de l’environnement. Dans cet article nous développons des comparaisons entre classificateurs non-dirigés neuronaux (réseaux auto-organisants de Kohonen) et statistiques (nuées dynamiques de Diday) qui nous amenent à proposer une procédure semi-dirigée capable de forcer la reconnaissance correcte des pixels confondus avec des thèmes non appropriés dans une première classification exploratoire. 1. Introduction Les satellites produisent de façon presque continue de l’information en forme numérique multidimensionnelle. L'ordinateur peut synthétiser utilement l'information la plus importante en groupant en classes homogènes les unités d’observation minimales (pixels). La classification automatique a l'avantage de réduire la subjectivité inhérente à chaque tentative de représentation simplifiée de la réalité. En plus elle est rapide et les coûts opérationnels sont réduits. Plusieurs types des classificateurs, neuronaux ou statistiques, ont été proposés dans l'effort de

Transcript of Classificateurs neuronaux et statistiques sur images satellitaires: une méthodologie semi-dirigée

Classificateurs neuronaux et statistiques sur images satellitaires: une

méthodologie semi-dirigée

SILVIO GRIGUOLO 1 et MANUEL PONSO

1 Dipartimento di Analisi Economica e Sociale del Territorio (DAEST),

S.Croce 1957, 30135 VENEZIA (Italie); téléphone: +39(41)257 2110;

télécopieur: +39 (41)524 0403, CÉ: [email protected]

Résumé

La reconnaissance de la couverture du sol à partir des classifications

automatiques est l’une des recherches méthodologiques importantes en

télédétection. Avec cette méthode on a l’avantage de disposer d’une couche

classifiée, à mettre en correspondance avec des informations d’autres

sources dans un SIG, ou bien à utiliser comme donné de base dans la

construction d’un modèle dynamique de l’environnement.

Dans cet article nous développons des comparaisons entre classificateurs

non-dirigés neuronaux (réseaux auto-organisants de Kohonen) et statistiques

(nuées dynamiques de Diday) qui nous amenent à proposer une procédure

semi-dirigée capable de forcer la reconnaissance correcte des pixels

confondus avec des thèmes non appropriés dans une première classification

exploratoire.

1. Introduction

Les satellites produisent de façon presque continue de l’information en

forme numérique multidimensionnelle. L'ordinateur peut synthétiser

utilement l'information la plus importante en groupant en classes homogènes

les unités d’observation minimales (pixels).

La classification automatique a l'avantage de réduire la subjectivité inhérente

à chaque tentative de représentation simplifiée de la réalité. En plus elle est

rapide et les coûts opérationnels sont réduits. Plusieurs types des

classificateurs, neuronaux ou statistiques, ont été proposés dans l'effort de

réduire le besoin d'intervention humaine. Néanmoins, une classification

complètement automatique paraît encore un objectif impossible à atteindre.

Quelques grands projets de recherche en cours comme IGBP (Belward,

1997) ou CORINE (CEC, 1993) visent à construire des bases de données de

la couverture du sol au plan continental ou planétaire. Les résultats sont

fréquemment destinés à fournir une entrée pour des modèles de dynamique

environnementale à l'échelle continentale (cycle des nitrates, diffusion des

pesticides, capture des polluants de l'atmosphère, pour ne mentionner que

quelques modèles possibles). PELCOM (Pan European Land Cover for

Monitoring) est un projet partiellement financé par la CE avec l’objectif de

construire une base de données de la couverture du sol de l’Europe à

l'échelle de 1,1 km, à partir d'images AVHRR de NOAA.

Dans le cadre de la définition de la méthodologie à adopter par PELCOM

nous avons développé les considérations de la section 2, où nous discutons

les avantages et les inconvénients des approches dirigés ou non-dirigés et

nous proposons une méthode semi-dirigée convenable pour classificateurs

soit neuronaux, soit statistiques. Dans la section 3 nous présentons

brièvement les classificateurs utilisés: le réseau auto-organisant de Kohonen

et un logiciel de classification statistique (ADDAPIX).

Nos considérations s’appliquent à n’importe quel tableau de données

satellitaires. Même si nos analyses empiriques portaient pour la plupart sur

des images AVHRR, nous avons préféré offrir ici, pour des raisons

purement pédagogiques, un exemple très simple sur une partie d'une image

TM de Landsat. Nous avons essayé de pousser les classificateurs à

reconnaître des thèmes qui pour nous étaient évidents, évitant la confusion

entre des couvertures qui, même semblables du point de vue radiometrique,

étaient tout à fait différentes.

2. La classification: quelques considérations méthodologiques essentielles.

Le problème de la reconnaissance d'éléments d'intérêt dans une scène (c'est-

à-dire, sa segmentation ou sa classification) est central en télédétection. Les

images en fausses couleurs limitent à trois les canaux qu'on peut considérer

simultanément. Même si on choisit soigneusement les canaux les plus

pertinents pour les objectifs particuliers de la recherche, il est évident qu'une

description exhaustive du comportement des pixels exige en général l'usage

simultané d'un nombre plus grand de canaux. La classification est une

opération analytique complexe qui synthétise l'information fournie par un

ensemble d'images qui offrent une description matricielle

multidimensionnelle de la région d'intérêt.

Une classification peut suivre une approche statistique ou neuronale, être

dirigée ou non-dirigée. Les méthodes neuronales n'opèrent pas d'après un

modèle pré-défini: ils sont théoriquement capables de traiter tout type de

distribution. Mais, on doit remarquer que la définition de l'architecture du

réseau la plus appropriée pour un problème demande du temps et le résultat

n'est pas toujours satisfaisant.

Une approche dirigée est approprié quand les thèmes sont définis a priori

(par exemple: bâti, route, eau, végétation, etc.). On présente au

classificateur une base d'apprentissage formée des pixels pour lesquels on

indique explicitement un thème d'attribution. A partir de la base

d’apprentissage le logiciel calcule un ensemble des paramètres statistiques,

ou des fonctions discriminantes, ou les poids d'un réseau neuronal de

rétropropagation: en quelques mots, il construit des règles appropriées de

classification qui lui permettent de maximiser le nombre des pixels inclus

dans l'ensemble d'apprentissage qu'il est capable d'assigner correctement.

Ces règles sont utilisées dans la phase opérationnelle pour classer, sur la

base de leurs vecteurs d'attributs, les autres unités statistiques dont le thème

est inconnu.

Au contraire, aucun thème n'est défini a priori dans le cas non-dirigé: les

pixels sont groupés de façon automatique, d'après leur ressemblance globale,

en classes dont le nombre est décidé par l'analyste ou déterminé par

l'algorithme en phase d’exécution. Les classes qui en résultent sont les plus

homogènes possible.

Nous avons utilisé tout d'abord un classificateur neuronal dirigé de type

rétropropagation. La plus grande difficulté concernait la préparation de

l'ensemble d'apprentissage: selon la littérature, il est nécessaire d'extraire de

l’image à classer un ensemble important de pixels (2-5 % du total). Comme

les thèmes doivent être définis d'avance, il peut se passer que des pixels de

type rare, pour lesquels on n’a pas prévu un thème spécifique, soient

assignés à un thème inapproprié.

Dans la pratique courante, cette approche devient l’une des raisons

principales de confusion dans la classification: comme il serait très

laborieux de s’occuper de chaque pixel, les logiciels courants invitent

l'analyste à choisir quelques zones de l'image, leur associant une étiquette de

classe. Car les pixels inclus dans une zone sont souvent bien loin d'être

homogènes, les groupes que le classificateur en dérive sont généralement

dispersés dans l'espace de représentation, et partialement superposés. Les

erreurs de classification sont rarement la responsabilité du classificateur: il

sont la conséquence de la manière habituelle de préparer l’ensemble

d’apprentissage.

Utilisant une approche non-dirigée (essentiellement exploratoire), nous

avons préféré alors de laisser que les groupes se forment spontanément

autour des combinaisons les plus fréquentes des valeurs des canaux. Cela

évite la nécessité de spécifier la classe d'une longue liste des points:

l'attribution des points aux classes est faite automatiquement, selon un

critère de distance minimale dans l'espace de représentation.

Malheureusement, nos analyses avec des classificateurs non dirigés,

neuronaux ou statistiques, ont prouvé qu’une méthode complètement

automatique satisfait rarement les attentes de l'analyste. Dans la construction

des groupes les deux méthodes opèrent une compensation entre nombre et

particularité: pixels dont les caractéristiques sont très particulières, mais qui

sont rares, ne sont en général pas assignés à une leur classe spécifique, et ils

s'ajoutent à la classe existante la plus semblable (mais à fois pas

suffisamment semblable...). Si on utilise les valeurs radiometriques des

bandes pour classer une image TM qui inclue peu de points d'eau, il est

facile que ceux-ci, même si spectralement bien caractérisés, ne soient pas

capables de former une classe et soient confondus avec d'autres (par

exemple, avec des parties de végétation ombragée, ou avec d'autres points

caractérisés par des valeurs plutôt basses sur tous les canaux).

L’exemple mentionné est simple, mais le problème est général. Il est causé

par la manière comme les classificateurs traitent les points rares, non par

l’ensemble particulier de variables choisies. Une augmentation limitée du

nombre des classes est généralement insuffisante à le résoudre, et d’autre

coté ce nombre ne peut pas être poussé au delà d'une valeur raisonnable.

Nous avons imaginé trois solutions possibles.

1. On peut attacher un poids majeur aux secteurs de l’image qui incluent des

points rares, du type qu’on désire mettre en évidence (fig. 1).

2. On peut sélectionner quelques secteurs de l’image qui incluent un

nombre suffisant de points de tous les thèmes à reconnaître, donnant un

poids nul aux autres points (fig. 3). Les classificateurs opèrent de façon

non-dirigée sur le sous-ensemble sélectionné, qui se conduit en un certain

sens comme une base d’apprentissage. Après d’avoir vérifié l’utilité des

groupes obtenus, tous les autres points de l’image sont assignés à la

classe la plus similaire.

3. On peut ajouter à la partie d’image qu'on veut segmenter d'autres parties

de la même image, qui comprennent beaucoup de points du type rare

qu’on désire renforcer (fig. 4).

Les trois méthodes mènent à des résultats substantiellement équivalents,

mais les méthodes 1 et 2 sont les plus simples du point de vue opérationnel.

On crée une image matricielle auxiliaire de la même taille que celle des

images utilisées pour la classification. Cette image enregistre les poids

associés avec les pixels (0 pour les points exclus): l'effet désiré est atteint en

assignant des poids élevés aux points rares mais particuliers.

Comment assigner ces poids sans devoir s’occuper des caractéristiques des

points individuels? Comme il est montré en figure 1, il suffit de délimiter

interactivement, avec la souris, les parties d’image caractérisées par une

présence considérable des thèmes à mettre en évidence, et d’assigner un

poids convenable à chaque région encadrée. Le logiciel utilisé pour ça

construit l'image synthétique qui enregistre les poids et qui contrôlera le

classificateur.

La facilité opérationnelle de la procédure décrite est évidente. On ne doit pas

s’occuper des caractéristiques des points-image individuels: après avoir

constaté par exemple que dans une analyse préliminaire une thème pour

l'eau n'a pas émergé spontanément, l'analyste peut délimiter quelques zones

où il sait que les pixels d'eau sont fréquents, leur assigner un poids et répéter

l’analyse. C’est un chose facile avec quelques connaissances du terrain.

3. Description des classificateurs utilisés

3.1. Classificateurs neuronaux: les réseaux auto-organisants de Kohonen

Une classification dirigée affecte chaque unité statistique à une et une seule

classe d’un ensemble des thèmes établi a priori. On présente au réseau

neuronal une base d’apprentissage de n pixels: pendant l’instruction le

système modifie les poids Wij associés aux connexions entre neurones de

façon à générer les sorties correctes. L’algorithme de rétropropagation

(backpropagation) est la méthode d’apprentissage la plus connue. Une fois

l’apprentissage terminé, la reconnaissance des caractéristiques des pixels

peut se produire en temps réel.

Teuwo Kohonen (1989) a introduit un type de réseau neuronal indiqué pour

la classification non dirigée. Les exemples présentés au réseau consistent

seulement en un vecteur d’attributs pour chaque pixel. Les thèmes ne sont

pas donnés a priori, mais construits par le classificateur. Dans sa formulation

la plus commune, un réseau de Kohonen consiste en un ensemble

bidimensionnel de noeuds (neurones) interconnectés à former une structure

rectangulaire ou hexagonale. Chaque noeud de coordonnées (i, j), est associé

à un vecteur mij qui a la même taille des vecteurs qui décrivent les unités à

classer. Les valeurs initiales des vecteurs mij sont en général choisies par

hasard dans l’espace de représentation.

En phase d'apprentissage, le classificateur compare le vecteur décrivant

chaque unité x avec tous les vecteurs mij associées aux noeuds du réseau et

assigne l’unité x au neurone le plus similaire (c’est-à-dire le plus près dans

l’espace de représentation selon une métrique appropriée, communément

celle de la distance euclidienne). Les vecteurs associés au noeud vainqueur

et à tous les noeuds plus proches sur le réseau sont modifiés de façon à

augmenter leur similarité avec l’unité x. Indiquant avec mk la composante k

du vecteur m, associé avec un noeud à modifier, avec xk la composante

homologue de x et avec t le temps passé du début de l’apprentissage, on a

m t m t h t x t m tk k k k( ) ( ) ( )[ ( ) ( )]+ = + −1 ∀k

La fonction h t( ) , dite fonction de voisinage, dépend de la distance mesurée

sur le réseau entre le noeud qu’on est en train de modifier et le noeud

vainqueur: sa valeur diminue de façon monotone avec le temps.

Initialement, les noeuds du réseau sont affectés par des variations fortes

mais, avec le temps, la fonction de voisinage et le coefficient

d’apprentissage diminuent et on assiste à la lente apparition de noeuds dont

les vecteurs associés représentent bien les caractères de la base

d’apprentissage.

Une fois l’apprentissage terminé, on peut classer des autres unités

statistiques les attribuant aux classes obtenues. Si on présente au réseau des

unités aux caractères connus et si on observe où elles vont se placer sur le

réseau, on parvient à associer aux différents noeuds des étiquettes, créant

ainsi une grille d’interprétation.

3.2. Le classificateur statistique ADDAPIX

Comme classificateur statistique nous avons utilisé la routine de

classification non hiérarchique incluse dans le logiciel ADDAPIX,

développé pour l’analyse d’images satellite (Griguolo, 1996), en ajoutant la

possibilité d’assigner, en phase d’apprentissage, des poids opportuns à des

parties sélectionnées de l’image. Le tableau pixels x caractères est soumis à

un’analyse en composantes principales (ACP), avec le double objectif de

réduire la dimension de la représentation, la limitant aux premiers facteurs

qui sont les plus révélateurs, et d’atténuer les erreurs stochastiques, chargés

par la méthode sur les derniers facteurs, qui sont éliminés.

L’analyste décide interactivement combien de composantes il veut garder

pour la classification, qui est calculée à partir d’un ensemble de centres

d’agrégation choisis au hasard ou bien dans les régions de densité maximale

de l’espace de représentation. Chaque partition est améliorée itérativement,

en réassignant les unités aux groupes en fonction d’un critère de distance

minimale jusqu’à obtenir un optimum relatif.

3.3. Comparaison des deux classificateurs

Un réseau de Kohonen n’est pas très différent d’un classificateur statistique

non hiérarchique; cette opinion est bien fondée dans la littérature et nous

renvoyons à Pao (1990). Ici nous nous limitons à observer que la méthode

de mise à jour des classes dans le chemin itératif vers une partition optimale

est tout à fait différente. Dans le cas du réseau neuronal, on modifie aussi les

noeuds proches au vainqueur, alors que dans le cas statistique, suivant

l’algorithme proposé par Diday (1971), la position des centres de classe est

mise à jour à la fin de chaque cycle, de façon telle que chaque centre

coïncide avec le centre de gravité de l’ensemble des pixels assignés à la

classe.

Habituellement, dans le cas d’un classificateur statistique non dirigé, on ne

distingue pas entre phase d’apprentissage et opérationnelle, et la

classification affecte directement toutes les unités. Mais cela n’est pas

impératif: on peut déterminer les centres de classe sur une image masquée

(comme la figure 4), qui contienne tous les thèmes désirés, assignant ensuite

à la classe la plus similaire les pixels non utilisés dans l’apprentissage.

4. Conclusions

La méthode semi-dirigée décrite épargne la pénible et contestable

construction d’un ensemble d’apprentissage, évitant en même temps que des

pixels peu fréquents mais bien caractérisés, qu’on voudrait voir assignés à

une leur classe spécifique, soient agrégés dans une même classe avec des

autres pixels quelque peu différents, appauvrissant ainsi la qualité de la

partition. Même si le problème est commun aux deux classificateurs, nos

analyses indiquent que le seuil minimal de fréquence nécessaire à

l’allocation d’une classe spécifique est mineur dans les cas du classificateur

statistique, qui parait donc plus sensible.

5. Références

Belward, A.S. 1997. The IGBP-DIS Global 1 km Land Cover Data Set -

Proposal and Implementation Plan. IGBP-DIS Working Paper, Toulouse,

polycopié (en cours de publication).

CEC 1993. CORINE Land Cover- Technical Guide. EUR 12585 EN, Office

for Official Publications of the European Communities, Luxembourg, ISBN

92-826-2578-8.

Diday, E. 1971. “Une nouvelle méthode en classification automatique et

reconnaissance des formes", Revue de Statistique Appliquée, 19, 2, p. 19-34.

Griguolo, S. 1996. ADDAPIX: a programme for pixel-by-pixel

classification for zoning and monitoring. Technical Report

SD:GCP/INT/578/NET, UN-FAO, Rome, 78 p.

Kohonen T. 1989. Self-Organization and Associative Memory. (3rd ed.),

Springer Verlag, New York, 312 p.

Pao, Y.H. 1990. Adaptative Pattern Recognition and Neural Networks.

Addison-Wesley, New York, 240 p.

Figure 1 - Vérone (Italie), partie d’une image TM de Landsat (9 x 3 km).Utilisant les bandes 1 à 5 et 7, même avec 16 classes on ne parvient pas àisoler nettement les pixels du fleuve. On résout le problème associant unpoids dix fois plus haut aux parties encadrées de l’image.

Figure 2 - Image en 16 classes obtenue en pondérant les pixels commeindiqué dans la figure 1. À droite le centre de la ville, avec le fleuve bienreconnaissable. Un agrandissement montrerait les ponts, car aussi les pixelsqui mélangent eau et matériel inerte sont assignés à une classe spécifique.

Figure 3 - Image synthétique utilisée pour l'apprentissage. L’image inclutassez de pixels pour tous les thèmes que le classificateur doit reconnaître(les étiquettes sont indicatives; les pixels en arrière-plan sont inactifs). Nousn’avons pas choisi seulement des pixels de l’image de Vérone, mais aussides pixels de végétation ombragée extraits de la région de la figure 4. Leclassificateur dressé réserve deux classes distinctes pour la végétation

ombragée et l’eau. Bien sûr, si on l’utilise pour classer l’image de Vérone,qui n’a pas des montagnes, la classe de végétation ombragée résultera vide.

Figure 4 - Bandes 1 à 5 et 7 de TM, image classée en 16 classes de la régionde Bassano del Grappa (31 x 31 km). La ville en haut à droite de l'image,traversée par la rivière. Nos classifications non-dirigées n’étaient pascapables de discriminer l’eau de la végétation des pentes ombragées demontagne: en raison de leur commune basse réflectance, les deux types depixel étaient systématiquement assignés à la même classe. L'ajout à l'imagede la bande inférieure, se composant d'une zone d'eau extraite de la lagunede Venise et d’une zone de bâti extraite de l’image de Vérone, répétéesquatre fois, a résolu le problème forçant l’assignation d’une classespécifique pour les pixels d'eau et l’identification des zones bâties et

industrielles. On obtient un résultat comparable si on utilise le réseauneuronal 4 x 4 dressé sur l'image synthétique de la figure 3.