T H E S E - Université d'Évry

UNIVERSITÉ D'ÉVRY - VAL D'ESSONNEECOLE DOCTORALE SITEVRY

T H E S E

pour obtenir le grade deDOCTEUR DE L'UNIVERSITÉ D'ÉVRY

Spécialité : ROBOTIQUEprésentée et soutenue publiquement

par

Christophe MONTAGNEle 13 décembre 2005

Titre : Apports de la couleur en vision - Application à la localisation locale etglobale d'une base mobile d'aide aux handicapés

��Directeur de thèse : Sylvie LELANDAIS BONADÈ

��

JURY

M. Patrick Bonnin , Prof. Université Paris XIII , Président du juryM. Atilla Baskurt , Prof. INSA de Lyon , RapporteurM. Michel Devy , Directeur de recherche LAAS , RapporteurM. Patrick Lambert , MdC Université de Savoie , RapporteurM. Etienne Colle , Prof. Université d'Evry , ExaminateurMme Sylvie Lelandais Bonadè , MdC Université d'Evry , ExaminatriceM. André Smolarz , MdC Université de Technologie de Troyes , ExaminateurM. Jean Triboulet , MdC Université de Montpellier , Examinateur

à mon Grand-Père,

Remerciements

De nombreuses personnes m'ont permis de mener à bien cette thèse, que ce soit par leur présence,leur aide, ou leurs responsabilités. Sans elles, je n'aurais jamais pu la faire. Cette thèse est aussi un peu laleur et je tiens à les faire �gurer dans ce qu'on pourrait appeler le � générique � de mon manuscrit. Avecune di�érence notable : contrairement au générique de �n d'un �lm, celui-ci est au début parce qu'unethèse n'est pas une �n mais un commencement.

La première personne que je tiens à remercier est Sylvie Lelandais Bonadè, ma directrice de thèse,mon boss. J'ai rarement vu quelqu'un s'impliquer autant pour les autres : des idées (pas toujours bonnesmais souvent), des contacts à droite et à gauche, des références en veux-tu en voilà, des critiques à vousfaire rentrer sous terre, et une disponibilité de (presque) tous les instants. Je pense que j'ai eu beaucoupde chance de l'avoir comme patron et collègue : je l'en remercie énormément.

Deux autres personnes dont je suis redevable sont Florent Chavant et Etienne Colle, les directeurssuccessifs du LSC où j'ai fait ma thèse. Je ne les remercie pas pour leur implication dans mon travail(quoique) mais pour ce qu'ils ont fait et font pour notre laboratoire. Sous leur impulsion, petit poucet agrandi, et grâce à cela m'ont fourni un cadre de travail que j'ai apprécié et que j'apprécie toujours (enplus de leurs signatures en bas de page).

Place maintenant aux proches. Merci papa et merci maman sans qui je ne serais pas là et qui m'ontsupporté pendant cette période. Un deuxième remerciement pour mon père à qui je dois de ne pas avoirfait philo ou histoire (et où j'aurais eu plus de mal à faire ce que j'ai fait là). Merci à mon frère qui, jepeux maintenant l'avouer, m'a poussé à faire cette thèse : il n'était pas question que mon petit frère medépasse en devenant docteur (en médecine) et pas moi. Je remercie également ma famille à qui je pensesouvent. En�n, je remercie mes copains �drôles� (ils se reconnaîtront) qui ont toujours été là quand çan'allait pas et avec qui j'ai pu penser à autre chose que le travail.

Un autre groupe que je tiens à remercier est la tribu des doctorants du LSC qui m'ont a�ublé desobriquets que je vais taire mais qui ont aussi été les premiers à me �ler un coup de main en cas de besoin.Avec eux, je remercie tous les membres permanents ou administratifs du LSC. Je remercie également lesmembres l'UFR S&T d'Evry et de l'IUT OGP d'Evry auprès de qui j'ai enseigné.

Pour leur collaboration et l'intérêt qu'ils ont porté à mes travaux, je remercie Jean Triboulet duLIRMM (Montpellier), Camille N'Zi de l'INP-HB (Yamoussoukro, Côte d'Ivoire), André Smolarz etPhilippe Cornu de l'UTT (Troyes), Mohamed-Chaker Larabi de IRCOM-SIC (Poitiers), et Benoit Gosselinet Anis Chaari � mes � deux stagiaires.

Et pour �nir, je remercie les personnes qui m'ont fait l'honneur de lire et juger mon travail.

A tous, merci !

Un mot d'esprit ? Hum ...Merci à Mandrill et Lena !

Table des matières

Introduction 25

Etat de l'art 311 La couleur 33

1.1 Introduction à la couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.2 Représentation de la couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.2.1 Représentation fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 361.2.2 Représentation par espace de couleurs . . . . . . . . . . . . . . . . . . . . 36

1.3 Mélange des couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.3.1 Mélange additif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.3.2 Mélange soustractif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.3.3 Conclusions sur le mélange des couleurs . . . . . . . . . . . . . . . . . . . 38

1.4 Espaces de couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.4.1 Espaces de primaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.4.1.1 Systèmes RVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401.4.1.1.1 L'espace RVB CIE 1931 . . . . . . . . . . . . . . . . . . 411.4.1.1.2 Représentation des espaces RVB . . . . . . . . . . . . . 42

1.4.1.2 Système XYZ CIE 1931 . . . . . . . . . . . . . . . . . . . . . . . 431.4.1.2.1 Diagramme chromatique de la CIE . . . . . . . . . . . . 44

1.4.2 Systèmes luminance-chrominance . . . . . . . . . . . . . . . . . . . . . . . 441.4.3 Systèmes perceptuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.4.3.1 Représentations géométriques . . . . . . . . . . . . . . . . . . . . 461.4.3.1.1 Système HSI . . . . . . . . . . . . . . . . . . . . . . . . 46

1.4.3.2 Système L*a*b* . . . . . . . . . . . . . . . . . . . . . . . . . . . 471.4.4 Systèmes d'axes indépendants . . . . . . . . . . . . . . . . . . . . . . . . . 48

1.4.4.1 Système I1I2I3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491.5 Tendance des travaux actuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2 Robotique mobile et handicap 512.1 Assistance de vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.1.1 Robots Care-O-bot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

11

Table des matières

2.1.2 Robot Pearl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.2 Assistance à la manipulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.2.1 Bras manipulateur sur base �xe . . . . . . . . . . . . . . . . . . . . . . . . 532.2.2 Bras manipulateur sur fauteuil roulant . . . . . . . . . . . . . . . . . . . . 532.2.3 Bras manipulateur sur base mobile . . . . . . . . . . . . . . . . . . . . . . 54

2.3 Autres systèmes d'assistance robotisée . . . . . . . . . . . . . . . . . . . . . . . . 552.4 Le projet Arph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.4.1 Pourquoi Arph ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562.4.2 Description du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4.3 De l'autonomie du robot à la coopération avec l'homme . . . . . . . . . . 59

2.4.3.1 Coopération homme-machine - CHM - . . . . . . . . . . . . . . . 592.4.3.2 Automatismes de Arph . . . . . . . . . . . . . . . . . . . . . . . 60

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613 La vision en robotique mobile d'intérieur 63

3.1 Navigation basée sur modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.1.1 Modélisation de l'environnement . . . . . . . . . . . . . . . . . . . . . . . 64

3.1.1.1 Modèles topologiques . . . . . . . . . . . . . . . . . . . . . . . . 643.1.1.2 Modèles métriques . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1.2 Modélisation du capteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.1.3 Mise en correspondance des primitives observées avec celles du modèle . . 66

3.1.3.1 Localisation absolue ou globale . . . . . . . . . . . . . . . . . . . 673.1.3.1.1 Atiya et Hagger [7] . . . . . . . . . . . . . . . . . . . . . 673.1.3.1.2 Méthode de localisation à deux points [3] . . . . . . . . 68

3.1.3.2 Localisation incrémentale . . . . . . . . . . . . . . . . . . . . . . 693.1.3.2.1 Système Finale [66] . . . . . . . . . . . . . . . . . . . . 693.1.3.2.2 Chenavier [17] . . . . . . . . . . . . . . . . . . . . . . . 693.1.3.2.3 Système Neuro-Nav [89] / Fuzzy-Nav [106] . . . . . . . 71

3.1.3.3 Localisation basée sur la poursuite de primitives . . . . . . . . . 713.2 Navigation par reconstruction de modèle (en-ligne) . . . . . . . . . . . . . . . . . 71

3.2.1 Simultaneous Localization And Mapping . . . . . . . . . . . . . . . . . . . 713.3 Navigation sans modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3.1 Navigation par �ot optique . . . . . . . . . . . . . . . . . . . . . . . . . . 733.3.2 Navigation par apparence . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.3.3 Navigation par reconnaissance d'objets . . . . . . . . . . . . . . . . . . . . 74

3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Apports de la couleur pour la localisation ��ne� d'un robot mobile 754 Système stéréoscopique noir et blanc 77

4.1 Méthode d'extraction des primitives noir et blanc . . . . . . . . . . . . . . . . . . 794.1.1 Choix du type de primitive . . . . . . . . . . . . . . . . . . . . . . . . . . 794.1.2 Rehaussement de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

12

Table des matières

4.1.3 Extraction de contours et création de segments . . . . . . . . . . . . . . . 804.1.4 Descripteurs des primitives . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.2 Mise en correspondance des primitives . . . . . . . . . . . . . . . . . . . . . . . . 834.2.1 Vecteur de variables d'une paire de segments . . . . . . . . . . . . . . . . 844.2.2 Classi�eur bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.2.3 Classi�eur neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.2.4 Classi�eur hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.3 Reconstruction 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5 Segmentation d'images colorées 895.1 L'environnement de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.1.1 Conditions d'éclairage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.1.2 Description de l'environnement . . . . . . . . . . . . . . . . . . . . . . . . 905.1.3 Bases d'images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.2 Choix d'espace(s) couleur(s) pour la segmentation . . . . . . . . . . . . . . . . . . 945.3 Segmentation d'images couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.3.1 Segmentation marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 985.3.2 Segmentation vectorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 985.3.3 �Fusion� de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1005.3.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.4 Outils d'évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1045.4.1 Quantité, longueur, orientation . . . . . . . . . . . . . . . . . . . . . . . . 1045.4.2 Notation pondérée Np . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1065.4.3 Notation pondérée comparative Npc . . . . . . . . . . . . . . . . . . . . . 1095.4.4 Redondance de Np . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.5 Résultats et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.5.1 Comparaison axe par axe . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.5.2 Comparaison des espaces complets . . . . . . . . . . . . . . . . . . . . . . 1135.5.3 Une quatrième approche ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.6 Sélection de segments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1185.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6 Paramètres couleurs 1216.1 Réduction du nombre de couleurs par la transformation du boulanger . . . . . . . 122

6.1.1 Présentation de la transformation du boulanger (TB) . . . . . . . . . . . . 1236.1.1.1 Implémentation rapide de la TB . . . . . . . . . . . . . . . . . . 126

6.1.2 Réduction des couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1266.1.2.1 Dé�nition des palettes . . . . . . . . . . . . . . . . . . . . . . . . 1266.1.2.2 Variabilité des palettes . . . . . . . . . . . . . . . . . . . . . . . 1276.1.2.3 Réduction des couleurs de l'image et évaluation . . . . . . . . . . 1286.1.2.4 Techniques de choix d'une palette . . . . . . . . . . . . . . . . . 130

6.1.2.4.1 Création d'une fenêtre des couleurs médianes . . . . . . 131

13

Table des matières

6.1.2.4.2 Sélection d'une fenêtre médiane . . . . . . . . . . . . . . 1326.1.2.4.3 Création d'une fenêtre moyenne . . . . . . . . . . . . . 133

6.1.3 Discussion et autres résultats . . . . . . . . . . . . . . . . . . . . . . . . . 1346.1.4 Comparaison avec d'autres algorithmes de quanti�cation . . . . . . . . . . 138

6.1.4.1 Autres méthodes de quanti�cation . . . . . . . . . . . . . . . . . 1386.1.4.1.1 Méthode median cut (coupe médiane) [50] . . . . . . . . 1386.1.4.1.2 Méthode split&merge (division-fusion) [11] . . . . . . . 1396.1.4.1.3 Méthode octree [43] . . . . . . . . . . . . . . . . . . . . 1406.1.4.1.4 Méthode de la matrice des palettes locales . . . . . . . . 140

6.1.4.2 Outils d'évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 1416.1.4.2.1 Evaluation objective . . . . . . . . . . . . . . . . . . . . 1416.1.4.2.2 Evaluation subjective . . . . . . . . . . . . . . . . . . . 142

6.1.4.3 Résultats de l'étude comparative . . . . . . . . . . . . . . . . . . 1426.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.2 Paramètres couleurs des segments . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446.2.1 Paramètre : couleur caractéristique homogène . . . . . . . . . . . . . . . . 148

6.2.1.1 Sélection des segments par l'homogénéité . . . . . . . . . . . . . 1506.2.1.2 Exemple d'�appariement� de segments par l'homégénéité . . . . 151

6.2.2 Paramètre : distance caractéristique . . . . . . . . . . . . . . . . . . . . . 1526.2.2.1 Exemple d'�appariement� de segments par l'EMD . . . . . . . . 154

6.2.3 Expérimentation et résultats de l'appariement couleur . . . . . . . . . . . 1556.2.3.1 Constitution de la base de paires d'images . . . . . . . . . . . . . 1556.2.3.2 Segmentation des paires d'images . . . . . . . . . . . . . . . . . . 1566.2.3.3 Sélection des segments . . . . . . . . . . . . . . . . . . . . . . . . 1576.2.3.4 Appariements manuel et automatiques . . . . . . . . . . . . . . . 1586.2.3.5 Résultats et analyses des appariements . . . . . . . . . . . . . . 158

6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Apports de la couleur en localisation globale 1637 Invariant couleur pour la localisation d'un robot d'intérieur par indexation

d'images 1657.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1657.2 Etat de l'art sur l'indexation de bases d'images couleurs . . . . . . . . . . . . . . 166

7.2.1 Systèmes d'indexation et de recherche d'images par le contenu . . . . . . . 1677.2.2 Attributs et index couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7.2.2.1 Signature couleur : Histogramme . . . . . . . . . . . . . . . . . . 1687.2.2.2 Signatures couleurs : Moments . . . . . . . . . . . . . . . . . . . 1697.2.2.3 Signature couleur : Histogramme cumulé . . . . . . . . . . . . . 1697.2.2.4 Signatures mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . 170

7.2.3 Mesures de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1707.2.3.1 Distances entre histogrammes . . . . . . . . . . . . . . . . . . . . 170

14

Table des matières

7.2.3.2 Intersection d'histogrammes . . . . . . . . . . . . . . . . . . . . . 1707.2.3.3 Tests d'hypothèses statistiques . . . . . . . . . . . . . . . . . . . 1717.2.3.4 Distances sur histogrammes cumulés . . . . . . . . . . . . . . . . 1717.2.3.5 Métriques pour distributions séparées . . . . . . . . . . . . . . . 1717.2.3.6 Similarité composée . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.3 Approche par réduction de couleurs . . . . . . . . . . . . . . . . . . . . . . . . . . 1737.3.1 Dé�nition d'un invariant couleur : la palette . . . . . . . . . . . . . . . . . 1737.3.2 Méthodologie de validation . . . . . . . . . . . . . . . . . . . . . . . . . . 1747.3.3 Validation de l'invariant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.3.4 Conclusions sur l'invariant couleur . . . . . . . . . . . . . . . . . . . . . . 182

7.4 Approche par distance interpalettes . . . . . . . . . . . . . . . . . . . . . . . . . . 1827.4.1 Méthodologie de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . 1827.4.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1827.4.3 Comparaison avec une approche basée sur les histogrammes couleurs des

images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1847.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Conclusion 187Bibliographie 193Glossaire 203

Annexes 208A Compléments sur les espaces couleurs 210

A.1 Espaces de primaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210A.1.1 Espaces RVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

A.1.1.1 Espaces RVB et illuminants . . . . . . . . . . . . . . . . . . . . . 210A.1.1.2 Système NTSC RVB . . . . . . . . . . . . . . . . . . . . . . . . . 211A.1.1.3 Système CMJ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

A.1.2 Espace XYZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212A.1.2.1 Conversion NTSC RVB vers CIE XYZ . . . . . . . . . . . . . . . 212A.1.2.2 Limitations de l'espace XYZ . . . . . . . . . . . . . . . . . . . . 212A.1.2.3 Composition du diagramme chromatique . . . . . . . . . . . . . 213A.1.2.4 Principes d'additivité pondéré . . . . . . . . . . . . . . . . . . . 213

A.1.2.4.1 Principe d'additivité pondérée de deux couleurs . . . . . 213A.1.2.4.2 Principe d'additivité pondérée de trois couleurs . . . . . 213

A.1.2.5 Points particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.1.2.6 L'axe z ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.1.2.7 Luminosité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.1.2.8 Espace de primaires ou espace luminance-chrominance . . . . . . 214

A.2 Systèmes luminance-chrominance . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

15

Table des matières

A.2.1 Système UVW CIE 1960 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.2.2 Systèmes YCbCr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216A.2.3 Systèmes antagonistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

A.3 Systèmes perceptuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.3.1 Système L*u*v* CIE 1976 . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.3.2 Représentations géométriques . . . . . . . . . . . . . . . . . . . . . . . . . 219

A.3.2.1 Espace de couleur de Munsell . . . . . . . . . . . . . . . . . . . . 219A.3.3 Systèmes d'axes indépendants . . . . . . . . . . . . . . . . . . . . . . . . . 220

B Reconstruction 3D des segments noir et blanc 221C Projection sur di�érents espaces couleurs 223D Autres résultats de segmentation 226

D.1 Approche marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226D.2 Approche vectorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229D.3 Approche par fusion des contours . . . . . . . . . . . . . . . . . . . . . . . . . . . 232D.4 Sursegmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

E Réduction des couleurs par palette �xe 238F Di�érence entre deux images 240G Descripteurs locaux de qualité 241H Attributs mixtes en indexation d'images 243

H.1 Signatures mixtes : texture et couleur . . . . . . . . . . . . . . . . . . . . . . . . 243H.1.1 Matrices de cooccurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . 243H.1.2 Corrélogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

H.2 Signatures mixtes : spatial et couleur . . . . . . . . . . . . . . . . . . . . . . . . . 245I Quanti�cations d'image rectangulaire 246

16

Table des �gures

1.1 Décomposition de la lumière. Tiré de [110]. . . . . . . . . . . . . . . . . . . . . . 331.2 Recomposition des couleurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341.3 Spectre des longueurs d'ondes et spectre visible. Tiré de [47]. . . . . . . . . . . . 351.4 Egalisation normale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.5 Egalisation particulière. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.6 Expérience d'égalisation par soustraction. . . . . . . . . . . . . . . . . . . . . . . 381.7 Synthèse additive RVB (1 ·R + 1 · V + 1 ·B = Blanc). . . . . . . . . . . . . . . . 381.8 Synthèse soustractive CMJ (Blanc− (1 · C + 1 ·M + 1 · J) = Noir). . . . . . . . 381.9 Espace à 3 primaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401.10 Fonctions colorimétriques du système de primaires RVB de l'observateur de réfé-

rence CIE 1931. Tiré de [138]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411.11 Espace des couleurs obtenu à partir des primaires RVB. . . . . . . . . . . . . . . 421.12 Fonctions colorimétriques du système de primaires XYZ de l'observateur de réfé-

rence CIE 1931. Tiré de [138]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431.13 Diagramme chromatique de la CIE. Tiré de [70]. . . . . . . . . . . . . . . . . . . 451.14 Espace HSI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461.15 Espace L*a*b*. Tiré de [84]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.1 Bras Manus. Tiré de [30]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542.2 Modes de déplacements de Manus. Tiré de [30]. . . . . . . . . . . . . . . . . . . . 542.3 Le système d'assistance Arph. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4 Prototype de la base mobile. Tirés de [18]. . . . . . . . . . . . . . . . . . . . . . . 583.1 Les deux grands types de modélisation de l'environnement : topologique d'une

part (dans cet exemple, B=Bureau, C=Couloir, I=Intersection et P=Porte), etmétrique d'autre part. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2 Référentiels du robot lié à deux points du monde. . . . . . . . . . . . . . . . . . . 683.3 Etapes du processus de localisation utilisé dans Finale. . . . . . . . . . . . . . . . 703.4 Algorithme d'identi�cation des amers de Chenavier. . . . . . . . . . . . . . . . . . 703.5 Méthodologie SLAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.6 Algorithme général SLAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.1 Schéma-bloc de la chaîne de traitements d'images. . . . . . . . . . . . . . . . . . 774.2 Capteur orginal sur une base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

17

Table des �gures

4.3 Paradigme classique pour la détection de contours. . . . . . . . . . . . . . . . . . 794.4 Procédure générale pour l'obtention du gradient. . . . . . . . . . . . . . . . . . . 804.5 Algorithme général pour l'extraction de contours et la construction des segments. 814.6 Exemple de prise d'images : caméra haute à gauche et caméra basse à droite. . . 824.7 Exemple de segments créés à partir des images précédentes. . . . . . . . . . . . . 824.8 Voisinage d'un segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.9 Architecture du réseau à 3 couches et structure d'un neurone. . . . . . . . . . . . 855.1 Exemples de scènes d'intérieurs : a-b) séjours, c-d) cuisines, e-f) chambres, g-h)

divers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.2 Histogrammes des images de la �gure 5.1 sur a) le plan rouge, b) le plan vert, et

c) le plan bleu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.3 Exemple d'une image dans l'espace RVB. . . . . . . . . . . . . . . . . . . . . . . 955.4 Image 5.3 selon a) l'axe rouge, b) l'axe vert, c) l'axe bleu. . . . . . . . . . . . . . 955.5 Image 5.3 selon a) l'axe x, b) l'axe y, c) l'axe z. . . . . . . . . . . . . . . . . . . . 965.6 Image 5.3 selon a) l'axe L* (luminosité), b) l'axe a* (vert vs rouge), c) l'axe b*

(bleu vs jaune). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.7 Image 5.3 selon a) l'axe H (teinte), b) l'axe S (saturation), c) l'axe I (intensité). . 965.8 Image 5.3 selon a) l'axe I1 (intensité), b) l'axe I2 (rouge vs bleu), c) l'axe I3 (vert

vs rouge-bleu). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.9 Quatre approches �couleurs� pour la création des segments. . . . . . . . . . . . . 995.10 Résultats intermédiaires obtenus pour l'image des rouges 5.4a : a) gradient x, b)

gradient y, c) angle du gradient, d) norme du gradient, e) extrema locaux, f)binaire basse, g) binaire haute, h) contour. . . . . . . . . . . . . . . . . . . . . . . 102

5.11 Segments obtenus pour l'image des rouges 5.4a. . . . . . . . . . . . . . . . . . . . 1035.12 Segments obtenus pour l'image d'intensité 5.8a. . . . . . . . . . . . . . . . . . . . 1035.13 Segments obtenus pour l'image RVB 5.3 par l'approche vectorielle. . . . . . . . . 1035.14 Segments obtenus pour l'image RVB 5.3 par l'approche �fusion� de contours. . . 1035.15 Histogramme des longueurs des segments obtenus sur l'image 5.4a (axe rouge). . 1065.16 Histogramme pondéré des longueurs des segments de l'image 5.4a (axe rouge). . . 1065.17 Correspondance entre indice de pas i et longueurs de segments. . . . . . . . . . . 1075.18 Histogramme par paliers des segments obtenus sur l'image 5.4a (axe rouge). . . . 1075.19 Histogramme pondéré par paliers des segments obtenus sur l'image 5.4a (axe rouge).1085.20 Double histogramme pondéré par paliers pour l'image 5.4a. . . . . . . . . . . . . 1095.21 Di�érence des deux histogrammes de la �gure 5.20. . . . . . . . . . . . . . . . . . 1105.22 Variations de a) Np (voir tableau 5.3) et b) Npc (voir tableau 5.4). . . . . . . . . 1115.23 Quantité moyenne (q) de segments. . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.24 Longueur moyenne (l) des segments. . . . . . . . . . . . . . . . . . . . . . . . . . 1145.25 Ecart-type moyen (σl) des longueurs. . . . . . . . . . . . . . . . . . . . . . . . . . 1155.26 Notation pondérée comparative moyenne (Npc). . . . . . . . . . . . . . . . . . . . 1165.27 Segments obtenus pour l'image RVB 5.3 par sursegmentation. . . . . . . . . . . . 1185.28 Répartition des segments obtenus pour l'image des rouges 5.4a par orientation et

longueur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

18

Table des �gures

5.29 Répartition des segments obtenus pour l'image des rouges 5.4a par quantité etorientation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.30 Répartition des segments obtenus pour l'image des rouges 5.4a par quantité cu-mulée et orientation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.31 Pourcentage de segments par orientation (segments de l'image 5.4a). . . . . . . . 1206.1 Image originale : mandrill (256× 256). . . . . . . . . . . . . . . . . . . . . . . . . 1226.2 Histogramme 3D de mandrill. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1226.3 1ère étape de l'itération initiale (n = 1) de la TB (128× 512). . . . . . . . . . . . 1246.4 2ème étape de l'itération initiale (n = 1) de la TB (256× 256). . . . . . . . . . . 1246.5 Mandrill convenablement mélangé (après 3n = 24 itérations) (256× 256) (fenêtre

extraite mise en évidence). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.6 Fenêtre de taille 128×128 (p = 7) extraite de la �gure 6.5 et résultat obtenu après

p = 7 TB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.7 Histogramme des intensités moyennes des fenêtres 16× 16 de mandrill. . . . . . . 1276.8 Histogramme des intensités moyennes des fenêtres 8× 8 de mandrill. . . . . . . . 1276.9 Histogramme des intensités moyennes des fenêtres 4× 4 de mandrill. . . . . . . . 1276.10 Histogramme des intensités moyennes des fenêtres 2× 2 de mandrill. . . . . . . . 1276.11 Principe de la réduction adaptative de couleurs par la TB. . . . . . . . . . . . . . 1286.12 Quanti�cations extrêmes de mandrill selon delta RVB : a) meilleure 256 couleurs ;

b) pire 256 couleurs ; c) meilleure 16 couleurs ; d) pire 16 couleurs. . . . . . . . . 1306.13 Quanti�cations extrêmes de mandrill selon delta LCH : a) meilleure 256 couleurs ;

b) pire 256 couleurs ; c) meilleure 16 couleurs ; d) pire 16 couleurs. . . . . . . . . 1316.14 Approche 1 - Mandrill réduit à : a) 256 couleurs ; b) 64 couleurs ; c) 16 couleurs ;

d) 4 couleurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1326.15 Approche 2 - Mandrill réduit à : a) 256 couleurs ; b) 64 couleurs ; c) 16 couleurs ;

d) 4 couleurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.16 Approche 3 - Mandrill réduit à : a) 256 couleurs ; b) 64 couleurs ; c) 16 couleurs ;

d) 4 couleurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1346.17 Images originales (de haut en bas) : food, �owers, girl, peppers & Lena. . . . . . . 1356.18 Images quanti�ées à 256 couleurs par la méthode 2 (de haut en bas) : food, �owers,

girl, peppers & Lena. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1356.19 Food quanti�ée à 16 couleurs par les trois méthodes. . . . . . . . . . . . . . . . . 1386.20 Flowers quanti�ée à 16 couleurs par les trois méthodes. . . . . . . . . . . . . . . . 1386.21 Découpage du cube RVB par la méthode median cut. . . . . . . . . . . . . . . . . 1396.22 Arbre de profondeur log2(K) tel que dé�ni par la méthode octree. . . . . . . . . . 1406.23 Protocole psychovisuel d'évaluation de la qualité. . . . . . . . . . . . . . . . . . . 1426.24 Graphe de données de l'erreur quadratique moyenne. . . . . . . . . . . . . . . . . 1436.25 Graphe de données du descripteur de qualité. . . . . . . . . . . . . . . . . . . . . 1436.26 Pixels de contour et pixels de voisinage. . . . . . . . . . . . . . . . . . . . . . . . 1456.27 Principe adopté pour l'intégration du calcul des paramètres couleurs au processus

de segmentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1466.28 Exemple de paire stéréoscopique d'images RVB : a) gauche et b) droite. . . . . . 147

19

Table des �gures

6.29 Echantillon extrait de l'image gauche de la paire et ses projections, par ordredécroissant d'écart-type. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

6.30 Mise en évidence des niveaux de couleur B homogènes des segments. . . . . . . . 1506.31 Sélection des segments �gauches� : a) segments initiaux, b) segments ayant au

moins une homogénéité, c) segments ayant au moins une homogénéité à droite etune homogénéité à gauche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

6.32 Sélection des segments �droits� : a) segments initiaux, b) segments ayant au moinsune homogénéité, c) segments ayant au moins une homogénéité à droite et unehomogénéité à gauche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

6.33 Découpage d'une image et zone de recouvrement. . . . . . . . . . . . . . . . . . . 1566.34 Qualité de l'appariement en fonction de l'homogénéité locale. . . . . . . . . . . . 1596.35 Qualité de l'appariement en fonction de la distance EMD. . . . . . . . . . . . . . 1596.36 Qualité de l'appariement par tranches. . . . . . . . . . . . . . . . . . . . . . . . . 1607.1 Architecture générale d'un système d'indexation et de recherche d'images. . . . . 1687.2 Exemple d'image 480× 640. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1757.3 Fenêtres médianes tirées de la �gure 7.2. . . . . . . . . . . . . . . . . . . . . . . . 1757.4 Localisation globale par réduction de couleurs. . . . . . . . . . . . . . . . . . . . . 1767.5 Image requête 480× 640. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1777.6 Deux images 480× 640 d'une base. . . . . . . . . . . . . . . . . . . . . . . . . . . 1777.7 Palettes de 300 couleurs des �gures 7.6a et 7.6b. . . . . . . . . . . . . . . . . . . . 1787.8 Image requête quanti�ée par les palettes 7.7a et 7.7b. . . . . . . . . . . . . . . . . 1787.9 Exemple d'image requête soumise à la première base. . . . . . . . . . . . . . . . . 1817.10 Les trois réponses à la requête de la �gure 7.9. . . . . . . . . . . . . . . . . . . . . 1817.11 a) Exemple d'image requête soumise à la seconde base, et premières réponses avec

des palettes de a) 48 couleurs et b) 192 couleurs. . . . . . . . . . . . . . . . . . . 1817.12 Localisation globale par distance entre palettes. . . . . . . . . . . . . . . . . . . . 183A.1 Ellipses de MacAdam dans le plan de chrominance xy. . . . . . . . . . . . . . . . 212A.2 Mélange additif pondéré de deux couleurs dans le plan xy. . . . . . . . . . . . . . 213A.3 Mélange additif pondéré de trois couleurs dans le plan xy. . . . . . . . . . . . . . 213A.4 Représentation du corps des couleurs de la CIE. . . . . . . . . . . . . . . . . . . . 215A.5 Représentation des courbes de niveau du corps des couleurs. . . . . . . . . . . . . 215A.6 Ellipses de MacAdam dans le plan de chrominance u*v*. . . . . . . . . . . . . . . 219A.7 Système de représentation des couleurs de Munsell. . . . . . . . . . . . . . . . . . 219A.8 Relation entre les teintes dé�nies par Munsell et le diagramme chromatique de la

CIE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220B.1 Géométrie pour la reconstruction 3D de segments de droite. . . . . . . . . . . . . 222C.1 Image 5.3 projetée sur xyz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223C.2 Image 5.3 projetée sur L*a*b*. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224C.3 Image 5.3 projetée sur HSI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224C.4 Image 5.3 projetée sur I1I2I3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

20

Table des �gures

D.1 Contours obtenus pour l'image 5.3 selon les plans R, V et B. . . . . . . . . . . . . 227D.2 Contours obtenus pour l'image 5.3 selon les plans x, y et z. . . . . . . . . . . . . 227D.3 Contours obtenus pour l'image 5.3 selon les plans L*, a* et b*. . . . . . . . . . . 228D.4 Contours obtenus pour l'image 5.3 selon les plans H, S et I. . . . . . . . . . . . . 228D.5 Contours obtenus pour l'image 5.3 selon les plans I1, I2 et I3. . . . . . . . . . . . 229D.6 Segments obtenus pour l'image 5.3 selon l'espace xyz par l'approche vectorielle. . 230D.7 Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par l'approche vectorielle.230D.8 Segments obtenus pour l'image 5.3 selon l'espace HSI par l'approche vectorielle. . 231D.9 Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par l'approche vectorielle. 231D.10 Segments obtenus pour l'image 5.3 selon l'espace xyz par l'approche fusion. . . . 232D.11 Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par l'approche fusion. . 233D.12 Segments obtenus pour l'image 5.3 selon l'espace HSI par l'approche fusion. . . . 233D.13 Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par l'approche fusion. . . 234D.14 Segments obtenus pour l'image 5.3 selon l'espace xyz par sursegmentation. . . . . 235D.15 Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par sursegmentation. . . 235D.16 Segments obtenus pour l'image 5.3 selon l'espace HSI par sursegmentation. . . . . 236D.17 Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par sursegmentation. . . . 236D.18 Colorisation des segments obtenus pour l'image 5.3 selon l'espace RVB par sur-

segmentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237E.1 Réduction de Lena à 256 couleurs par une palette a) �xe (paint), et b) adaptative

(TB). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239F.1 Di�érences absolues (au changement de dynamique près) entre mandrill et ses

quanti�cations de la �gure 6.15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240F.2 Di�érences absolues (au changement de dynamique près) entre lena et ses quanti-

�cations par l'approche 2 de la TB. . . . . . . . . . . . . . . . . . . . . . . . . . . 240H.1 Matrice de cooccurrence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243I.1 Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3a : 48 couleurs. . . . . . . 246I.2 Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3b : 108 couleurs. . . . . . 247I.3 Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3c : 192 couleurs. . . . . . 247I.4 Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3d : 300 couleurs. . . . . . 248I.5 Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3e : 588 couleurs. . . . . . 248

21

Liste des tableaux

1.1 Espaces couleur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.2 Couleurs principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.1 Variables du vecteur X d'une paire de segments. . . . . . . . . . . . . . . . . . . 845.1 Nombre brut de segments obtenus pour l'image 5.3 en fonction des axes/espaces

couleurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1055.2 Longueur moyenne (l) et écart-type des longueurs (σl) des segments obtenus pour

l'image 5.3 (en pixels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1055.3 Notation pondérée Np pour l'image 5.3. . . . . . . . . . . . . . . . . . . . . . . . 1085.4 Notation pondérée comparative Npc pour l'image 5.3. . . . . . . . . . . . . . . . . 1115.5 Données moyennes pour tous les segments, axe par axe. . . . . . . . . . . . . . . 1125.6 Données moyennes pour tous les segments, espace par espace, selon les approches

vectorielle et par fusion des contours. . . . . . . . . . . . . . . . . . . . . . . . . . 1135.7 Notations pondérées comparatives pour les segmentations d'espace (appliquées à

l'image 5.3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1176.1 Valeurs pour une image 256× 256 (28 × 28, n = 8). . . . . . . . . . . . . . . . . . 1266.2 Ecarts-types des intensités moyennes des fenêtres de �mandrill�. . . . . . . . . . . 1286.3 delta extrêmes pour des quanti�cations de �mandrill� à 256 et 16 couleurs. . . . 1306.4 Valeurs delta calculées à partir des quatre images de la �gure 6.14. . . . . . . . . 1326.5 Valeurs delta calculées à partir des quatre images de la �gure 6.15. . . . . . . . . 1336.6 Valeurs delta calculées à partir des quatre images de la �gure 6.16. . . . . . . . . 1346.7 Valeurs de ∆RV B et ∆LCH calculées sur les images 6.17 réduites par les trois

méthodes proposées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.8 Valeurs de delta calculées sur les images 6.17 réduites par les trois méthodes

proposées (δR, V,B ∈ [0− 255], δL ∈ [0− 100], δC ∈ [0− 134], δH ∈ [0− 252]). . 1376.9 MOS et écart-type moyen de toutes les évaluations menées. . . . . . . . . . . . . 1436.10 Ecart-type des projections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1486.11 Résultats d'un �appariement� de segments par le paramètre d'homogénéité. . . . 1526.12 Résultats d'un �appariement� de segments par le paramètre d'EMD. . . . . . . . 1556.13 Choix des axes pour le calcul des paramètres. . . . . . . . . . . . . . . . . . . . . 1576.14 Résultats de l'appariement en fonction de l'homogénéité locale et de l'EMD. . . . 1586.15 Résultats de l'appariement en fonction de l'homogénéité locale et de l'EMD. . . . 160

22

Table des tableaux

7.1 Exemples de dimensions pour des fenêtres rectangulaires (image d'origine : 480×640). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

7.2 Di�érences entre image 7.5 et images 7.8. . . . . . . . . . . . . . . . . . . . . . . 1767.3 Résultats pour les 20 images requêtes soumises à la base n◦1. . . . . . . . . . . . 1797.4 Résultats pour les 35 images requêtes soumises à la base n◦2. . . . . . . . . . . . 1807.5 Résumé des résultats où la bonne pièce est désignée. . . . . . . . . . . . . . . . . 1807.6 Résultats de la deuxième stratégie de recherche d'images sur les bases 1 (20 re-

quêtes) et 2 (35 requêtes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1847.7 Comparaison des di�érentes approches d'indexation et de recherche d'images. . . 185A.1 Valeurs de primaires et d'illumimants dans l'espace xyz. . . . . . . . . . . . . . . 210A.2 Tristimuli NTSC usuels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211D.1 Code de lecture des contours des images D.1 à D.5. . . . . . . . . . . . . . . . . . 226

23

Introduction

La couleur est de ces domaines entre art et science, entre concept et réalité. Tant de chosespeuvent être dites sur la couleur, sur les couleurs. Mais au �nal, il ne peut y avoir de dé�ni-tion ou de connaissance universelle. Chacun d'entre nous a, de manière intuitive, une certainecompréhension de ce qu'elle est. Physiciens, peintres, physiologistes et linguistes la dé�nissentdi�éremment. Bien que de plus en plus précises, les connaissances divergent selon le domaine :chimie, anthropologie, biologie, ou numérique. S'intéresser à la couleur, c'est s'intéresser à toutesces connaissances mais nul ne peut prétendre tout appréhender. La perception des couleurs est unphénomène psychophysiologique complexe qui met en ÷uvre à la fois une source de lumière, unobjet ré�échissant cette lumière et un système visuel la réceptionnant. Dans le cas de l'homme, ledernier point fait référence à la fois à son système de vision et à sa culture. Les connaissances surla fabrication des couleurs remontent à la préhistoire où les premiers peintres étaient capables defaire les mélanges leur permettant de faire des fresques murales colorées. La nature, elle-même,dispose de di�érents moyens pour produire des couleurs et son observation est des plus enrichis-santes. En�n, ces dernières décennies, l'avènement de la vision arti�cielle a développé la couleurnumérique. En même temps que se développait la vision arti�cielle, de nombreux traitementsd'images numériques étaient pensés et conçus. Toutefois, la majeure partie de ces traitementsse limite à des images numériques monochromes. Il en est ainsi pour ceux utilisés en robotiquedans des processus de navigation d'un robot, malgré l'emploi de plus en plus fréquent de camé-ras couleur. Devant ce paradoxe, nous avons voulu étudier l'emploi de la couleur dans de tellesapplications et conclure sur l'intérêt de la couleur face au monochrome. Le cadre que nous avonschoisi pour mener cette recherche est celui du projet Arph mené au sein du Laboratoire SystèmesComplexes - LSC -.

Les activités scienti�ques du LSC concernent la problématique dite de la �machine intel-ligente�. Les travaux qui y sont menés tendent à la réalisation de machines ou de systèmesphysiques, autonomes ou coopérant avec un opérateur humain, capables de :

� percevoir un environnement variable, connu ou inconnu ;� agir au sein de cet environnement ;� réaliser une grande diversité de tâches ;� raisonner sur les données et les moyens nécessaires à l'accomplissement de ces tâches.

Cette optique de recherche englobe par conséquent de nombreux domaines dont le traitementdes données, la réalité virtuelle, la vision arti�cielle, la modélisation, et le contrôle des systèmescomplexes.

Historiquement, le LSC a étendu ses activités au génie biologique et médical au travers de

25

Introduction

projets ponctuels. Mais, suite à la thèse de Philippe Hoppenot sur la �contribution de la robo-tique mobile à l'assistance aux personnes handicapées� [52], en collaboration avec l'AssociationFrançaise contre les Myopathies - AFM -, cette activité jusque là marginale a pris de l'ampleur,et des partenariats se sont noués entre le LSC et d'autres équipes de recherche, des associationsde particuliers, et des organismes travaillant auprès des personnes handicapées. Actuellement,nous menons en collaboration avec l'AFM un projet d'Assistance Robotique aux Personnes Han-dicapées - ARPH -. L'objectif de ce projet est de proposer un appareil d'assistance n'excluantpas la personne handicapée : la philosophie de Arph est que le robot ne doit pas �faire à la placede� mais compenser les dé�ciences de la personne. Par conséquent les deux entités deviennentdépendantes et une coopération homme-machine se révèle nécessaire. Le robot que nous dévelop-pons consiste en une base mobile autonome à laquelle est adjoint un bras manipulateur destiné àêtre une extension de la personne handicapée. Le bras permet ainsi d'e�ectuer di�érentes tâchesquotidiennes tels qu'ouvrir une porte ou verser de l'eau dans un verre, sans l'aide d'une tiercepersonne. Par ailleurs, la personne handicapée n'ayant pas nécessairement des moyens �nanciersétendus, le coût du robot est limité grâce notamment à l'utilisation de capteurs tels l'odométrieet les capteurs à ultrasons. Une caméra couleur équipe néanmoins le robot et sert au retour visuelà l'opérateur de l'environnement du robot.

La base est opérationnelle et les travaux actuellement menés concernent la coopération entrel'homme et la machine qui ont tous deux des capacités propres de perception, de décision etd'action. Nous avons envisagé di�érentes possibilités de coopération liées à la manière de com-mander le robot. En commande strictement manuelle, l'opérateur agit directement sur la base.En automatique, l'opérateur alloue une mission au robot qui se charge de la réaliser automa-tiquement. Entre ces deux extrêmes, des modes dits �partagés� permettent à l'opérateur de seconcentrer sur un aspect précis de la mission : la détection et la gestion des collisions, la détectionet la gestion des erreurs de localisation, la commande de la base mobile, ou la commande dubras manipulateur. Le robot se charge alors des éléments délaissés par la personne. Parmi lesalgorithmes développés dans le cadre de ces multiples modes de commande, nous nous intéres-sons plus spécialement à ceux de localisation et de navigation basés sur la vision. En e�et, lepoint de départ du travail de recherche présenté dans ce manuscrit, est le souhait de trouverune solution couleur à deux problèmes classiques de la robotique mobile : la localisation ��ne�qui permet au robot de savoir à quelle distance il se trouve des objets de son environnementimmédiat, et la localisation �globale� qui a pour but de localiser, sans métrique particulière, lerobot par rapport à une description de son environnement. Pour accomplir une tâche donnée, lerobot doit pouvoir connaître les distances qui le séparent des éléments, et éventuels obstacles,de son environnement a�n d'arriver à proximité de l'objet de sa mission avec précision : noussommes là dans un travail de localisation �ne. Si, à un moment donné dans l'accomplissementde sa tâche, le robot ne sait plus où il est dans son environnement, il doit pouvoir se resituersommairement pour faire connaître sa situation à la base �xe - l'opérateur - : nous parlons alorsde localisation globale.

Des travaux de recherche antérieurs ont été réalisés au laboratoire concernant la localisa-tion �ne d'un robot mobile, et par extension de sa navigation, notamment ceux de HumbertoLoaiza qui propose une localisation �ne en vision binoculaire monochromatique [82], et de Omar

26

Introduction

Ait-Aider qui propose une localisation �ne en vision monoculaire monochromatique [1]. Commel'essentiel des recherches menées en traitement des images, ces travaux ont pour cadre une visiondans laquelle la notion même de couleur est exclue. Or, pour l'homme, la perception des couleursest une information importante et bien plus complète que l'unique perception des variations deluminosité. Sachant également que la vision couleur s'est fortement démocratisée ces dernièresannées, il nous parait incongru de ne plus en tenir compte. Nous allons donc étudier les di�érentsapports de la couleur non pas de manière générale, car il est impensable de couvrir toutes lescatégories de traitement d'images qui existent, mais plutôt de manière ciblée aux taitementsvisuels mis en ÷uvre dans notre projet de base mobile à savoir les deux types de localisation pré-cédemment décrits. Nous verrons que cette recherche s'est également étendue à d'autres aspectsde la vision comme la quanti�cation couleur.

La première partie de notre recherche se focalise sur la localisation �ne qui peut être di-visée en deux parties : l'extraction d'éléments signi�catifs d'une image de la scène, égalementappelés �primitives�, et la détermination de la position du robot par rapport à ces éléments.Les méthodes que nous utilisons sont spécialement adaptées à un environnement domestiqueet basées sur une vision passive. Cette notion d'environnement domestique est incontournableen raison de l'objectif a�ché d'assister des personnes handicapées chez elles. Cela amène à unconstat important : un tel environnement est constitué majoritairement d'objets manufacturés(Exemples : murs, plafonds, sols, portes, fenêtres, mobilier, électroménager) par nature structuréset de formes polyédriques ou cylindriques. De telles formes étant riches en � segments de droite�, nous orientons nos méthodes sur l'utilisation de ces segments comme primitives de nos images.La notion de vision passive implique l'absence d'aménagements spéci�ques et visibles dans l'ha-bitat. Nous ne voulons pas de telles modi�cations parce que, si elles facilitent la localisation etla navigation du robot, cela se fait au détriment de la qualité de vie de l'habitant des lieux. Pourconstruire les segments tout en tenant compte de la couleur, nous avons mis au point plusieursalgorithmes basés sur des gradients d'image et sur une segmentation par hystérésis. L'apport dela couleur que nous faisons se situe, en amont de la segmentation à proprement parler, au niveaudu calcul des gradients et des contours de l'image. Nous mettons à contribution les gradients deDeriche [25] et de DiZenzo [28]. Le premier est utilisé de manière indirecte car monochromatiquetandis que le second est par dé�nition un gradient couleur. Quand nous disposons de segmentsissus de deux images stéréoscopiques, il devient possible de construire une représentation 3Dde la scène �gurant sur ces images. C'est un problème classique qui consiste, connaissant ladistance et l'orientation entre deux prises de vue, à calculer les coordonnées dans l'espace d'unpoint ou d'un segment commun aux deux prises de vue. La di�culté consiste alors à trouverce point ou ce segment commun. Nous utilisons une méthode d'appariement des segments quiest une classi�cation hybride entre classi�cations bayésienne et par réseau de neurones. Cetteclassi�cation permet de dire si une paire de segments, chacun issu d'une image, est �bien� ou�mal� appariés. L'apport de la couleur se situe au niveau des caractéristiques, ou descripteurs,des segments qui permettent de reconnaître un segment. Certains sont basés sur la géométrie,l'intensité et la texture des régions de part et d'autre du segment, ou le voisinage avec les autressegments. Nous proposons deux descripteurs supplémentaires qui sont une distance intercouleur,

27

Introduction

et une identi�cation des couleurs homogènes des deux régions autour du segment.Au cours de nos travaux sur les descripteurs couleurs, nous avons eu le besoin de �simpli�er�

nos images. En e�et, ces dernières se composent d'un grand nombre de couleurs qui complique à lafois certains traitements que nous sommes amenés à faire et le calul de données liées aux couleurs.Un histogramme des couleurs de nos images qui se révèle �plat� parce que chaque pixel est d'unecouleur di�érente ne nous intéresse pas. De même, il est impossible de désigner précisément unecouleur homogène si toutes les couleurs sont uniques ou quasi uniques. Devant ce problème,nous avons mis au point une méthode de quanti�cation des couleurs d'une image qui, outre lefait de réduire signi�cativement le nombre de couleurs, permet de conserver l'aspect des imageset s'adapte à chaque image. Malgré l'altération des images qu'entraîne la quanti�cation, nousconservons ainsi les caractéristiques de l'image. Par méthode adaptative, nous entendons uneméthode qui aboutit à un nombre restreint de couleurs spéci�ques à l'image traitée, et non pas àdes couleurs �inconnues� de l'image. Nous avons basé cette opération sur la transformation ditedu boulanger qui permute les pixels d'une image de manière à obtenir un �mélange� homogène.De ce mélange, nous tirons un échantillon de pixels dont les couleurs vont composer une palettede couleurs par rapport auxquelles l'image pourra être quanti�ée. Les résultats obtenus ontnotamment fait l'objet d'un article dans un numéro spécial de la revue scienti�que �Traitementdu Signal� consacré à la couleur [75], et d'une soumission en cours de correction à la revueJournal of Electronic Imaging [94]. Grâce à cette méthode, nous avons rendu signi�catif le calculde données et la recherche de descripteurs couleurs dans une image. Mais nous avons égalementrepris cette méthode pour la suite de nos travaux.

L'autre aspect de notre recherche concerne la localisation globale qui consiste, pour un robot�égaré�, à identi�er la pièce où il est, et éventuellement son orientation dans ladite pièce. Pournous, cette problématique se ramène à de l'indexation d'images dans le sens où nous avonschoisi de rechercher, au sein d'une base d'images décrivant l'environnement potentiel du robot,l'image la plus proche d'une image requête soumise par la caméra. Notre axe de recherche estpurement basé sur la couleur et est complémentaire à d'autres méthodes qui se trouvent dans lalittérature classique d'indexation. Nous proposons pour une image donnée d'utiliser une palettede couleurs, obtenue grâce à notre méthode de quanti�cation des couleurs, en tant qu'un invariantcouleur. Pour ce faire, nous avons constitué des bases d'attributs que sont les palettes extraitesde l'ensemble des images originales. Une première approche ayant permis de valider ce concept,nous développons actuellement une seconde approche plus opérationnelle en terme de temps decalcul. La première méthode consiste à procéder à la quanti�cation d'une image requête parrapport à toutes les palettes de la base. L'image quanti�ée la plus proche de l'image requêtedésigne une palette des couleurs les plus proches de celles de l'image requête et signi�e doncque l'image de la base à l'origine de cette palette est la plus proche de l'image requête. Unefois l'image de la base identi�ée, connaissant la pièce et l'orientation associées à cette image, lerobot peut être informé de sa probable situation. La deuxième méthode vise à se dispenser dela quanti�cation systématique de l'image requête par rapport à toutes les palettes de la base, cequi demande un temps de calcul important. A la place, nous extrayons une palette de l'imagerequête et nous déterminons la plus petite distance séparant cette palette requête à celles de labase. Une palette de la base ainsi désignée permet à nouveau de remonter aux informations de

28

Introduction

position et d'orientation qui peuvent être transmises au robot.Les di�érentes solutions couleur que nous apportons que ce soit en matière d'extraction de

segments, de descripteur, de quanti�cation, ou d'indexation d'images nécessitent une validationpar rapport à un existant. En le faisant, nous justi�ons nos approches et nos résultats. Ainsipour la création des segments, nous avons développé et utilisé di�érentes statistiques dont unecomparaison entre ensemble de segments �couleurs� et ensemble de segments en niveaux de gris.Nos descripteurs sont mis en compétition avec d'autres plus conventionnels. Notre méthode dequanti�cation est ainsi confrontée à quatre autres méthodes dont trois classiques, et est évaluéeselon des outils subjectifs et objectifs.

Tous ces travaux et les résultats qui les accompagnent sont présentés dans ce manuscrit.Celui-ci est divisé en trois parties majeures. La première partie est consacrée à un état de l'artsur la couleur, la robotique d'assistance qui inclut le projet Arph, et la vision en robotique mobiled'intérieur. La deuxième partie présente les di�érents travaux menés dans le cadre de la locali-sation ��ne�. Les di�érentes méthodes de segmentation couleur développées sont décrites ainsique les outils utilisés pour les évaluer et les résultats que nous avons obtenus. Nous présentonségalement nos di�érents travaux sur la caractérisation des couleurs dont les descripteurs couleursmis au point et une méthode originale de réduction des couleurs. Un dernier chapitre de cettedeuxième partie traite de l'appariement des segments et des résultats obtenus. Dans la dernièrepartie, nous présentons nos apports dans le domaine de l'indexation d'images précédés d'un étatde l'art. La conclusion verra un bilan complet de nos travaux et de ce que nous estimons avoirapporté au domaine de la couleur.

29

Etat de l'art

31

Chapitre 1

La couleur

La couleur est la gloire de la lumière.Jean Guitton

1.1 Introduction à la couleur

Un peu d'histoire. En 1666, Isaac Newton découvre qu'un rayon de lumière diurne (lumièreblanche) traversant un prisme de verre devient un rayon continu de couleur allant du violet aurouge (cf. �gure 1.1). Ce phénomène physique est similaire au passage d'une raie de lumière dansune gouttelette d'eau, dont la manifestation la plus connue est l'arc-en-ciel.

Fig. 1.1 � Décomposition de la lumière. Tiré de [110].

Newton démontrera aussi l'addition des couleurs : l'adjonction d'un deuxième prisme (demême caractéristique, mais placé symétriquement par rapport au premier) restitue le faisceaulumineux décomposé par le premier prisme (cf. �gure 1.2).

33

Chapitre 1 : La couleur

Fig. 1.2 � Recomposition des couleurs.

Un phénomène simple ? Grâce à ces découvertes, il est apparu que la couleur n'était pasun processus inné dans la nature, mais plutôt le résultat d'un phénomène psychophysiologiquecomplexe faisant intervenir à la fois :

� la composition spectrale de l'éclairage (la source de lumière),� la structure moléculaire de l'objet ré�échissant ou réfractant cette lumière,� les récepteurs et interpréteurs de l'information lumineuse (les yeux et le cerveau).

De manière concrète, la couleur est une sensation créée en réponse à l'excitation du systèmevisuel par une radiation électromagnétique (la lumière) lui parvenant de manière incidente parla rétine et ayant été ré�échie ou réfractée préalablement par un objet. De cela, il ressort quedé�nir la couleur nécessite de comprendre ce qu'est la lumière.

La lumière. La lumière est la partie visible du rayonnement électromagnétique qui nous en-toure et n'est qu'un faible segment de ce vaste spectre d'énergie qui s'étend des rayons cosmiques(petites longueurs d'ondes) aux ondes radio (grandes longueurs d'ondes). La représentation spec-trale de ce segment est continue et varie de 380nm (lumière bleue) à 780nm (lumière rouge)comme le montre la �gure 1.3. La puissance ou la radiance physique d'une lumière incidente estdonc comprise dans une distribution d'énergie spectrale (SPD), souvent divisée en composantesreprésentant une bande de 10nm.

L'éclairage. Plus l'éclairage est faible ou fort, plus les couleurs sont sombres ou claires. Atel point qu'il est même possible de ne plus percevoir de couleurs (dans un sens comme dansl'autre). De plus, sous une lumière d'une teinte donnée, la perception des couleurs a tendance àdevenir monochromatique : sous une lumière verte, tout apparaît en vert. Une lumière blanche,par contre, fait ressortir toutes les couleurs.

In�uence des objets ré�échissants ou réfractants. Les objets que nous percevons sont colorésdu fait qu'ils absorbent une partie de la lumière qui les éclaire : la lumière renvoyée correspondalors à une couleur donnée. L'absorption de cette lumière dépend directement de la structuremoléculaire de l'objet éclairé. Ainsi, certaines structures sont capables de renvoyer des lumièresdi�érentes selon des angles di�érents et, suivant l'orientation sous laquelle on les observe, leurcouleur sera changeante. Il en va de même en cas de réfraction de la lumière.

34

1.1 Introduction à la couleur

Fig. 1.3 � Spectre des longueurs d'ondes et spectre visible. Tiré de [47].

Le système visuel humain. L'organe qui réceptionne la lumière est la rétine. Les cellules pho-toréceptrices qui tapissent en partie la rétine sont de deux natures : les bâtonnets et les cônes.Les bâtonnets peuvent fonctionner avec une très faible luminosité (vision nocturne), tandis queles cônes ne peuvent fonctionner qu'avec une forte luminosité (vision diurne). De plus, les cônescontiennent trois types de pigments qui absorbent la lumière dans trois régions de longueursd'ondes : courtes (bleu), moyennes (vert) et longues (rouge). Ils permettent donc la vision descouleurs. Ainsi, la nuit, seuls les bâtonnets sont actifs et le système visuel ne perçoit que les va-riations d'intensité lumineuse (�la nuit, tous les chats sont gris�). Certains phénomènes peuventen outre a�ecter directement le système visuel et a�ecter la perception des couleurs : un change-ment brutal de luminosité, l'accoutumance à un éclairage particulier, des altérations physiquescomme le daltonisme ou la cataracte (léger voile jaune).

Vocabulaire. Nous pouvons remarquer que, dans la plupart des langues parlées à travers lemonde, très peu de termes de base désignent les couleurs : blanc, noir, rouge, vert, jaune, bleu,brun (ou marron), pourpre (ou violet), rose, orange, gris. Mais, à proprement parler, les termesblanc, noir et gris ne désignent pas des couleurs mais bel et bien des intensités de lumière. Labranche de la science des couleurs qui consiste en la description et la spéci�cation des couleursest appelé colorimétrie. Un certain nombre de termes sont couramment utilisés à propos dela couleur. Ces termes prêtent souvent à confusion ou sont utilisés de manière abusive : cesont l'intensité (intensity, I), l'éclat ou clarté (brightness, Br), la luminance (luminance, Y ), laluminosité (lightness, L∗), la teinte (hue, H) et la saturation (saturation, S).

� L'intensité (I) est une mesure, sur un certain intervalle du spectre électromagnétique, du�ux de puissance qu'irradie une surface et est exprimée en watt par mètre carré (W.m−2).L'intensité est souvent appelée mesure linéaire de la lumière.

� La clarté (Br) est la quantité de lumière ré�échie par la surface d'un objet. Elle s'exprimepar des adjectifs tels que �clair� ou �foncé�.

� Puisque la perception de l'éclat est très complexe, la CIE a dé�ni une autre quantité : laluminance (Y ) qui est la puissance de radiation, pondérée par une fonction de sensibilité

35


spectrale caractéristique de la vision humaine.� La vision humaine a une réponse perceptuelle non linéaire à la luminance qui est appeléeluminosité (L∗). La non linéarité est basiquement logarithmique.

� La teinte (H) est sans doute ce qui se rapproche le plus du mot couleur. Elle désigne demanière numérique les termes que nous utilisons pour dire �ceci est rouge� ou �ceci estvert�, indépendamment des notions de clarté ou d'éclat.

� La saturation (S) est l'éclat d'une couleur, sa pureté. Un vert saturé ne peut pas être plusvert qu'il ne l'est déjà. Au contraire, une couleur dont la saturation est nulle sera vue grise.

1.2 Représentation de la couleur

Le spectre visible étant continu, il est di�cile de désigner une couleur comme étant �le�rouge, �le� vert ou �le� bleu. Deux approches permettent de représenter et donc de manipulernumériquement les couleurs : la représentation fréquentielle et l'espace de couleur.

1.2.1 Représentation fréquentielleCette représentation décrit un stimulus lumineux en estimant sa composition spectrale. Pour

ce faire, le stimulus est �ltré par un ensemble de N �ltres ayant des sensibilités spectrales defaibles largeurs. La formule 1.1 illustre ce propos.

R(i) =∫ λ(i)+ε

λ(i)−εf(λ)dλ avec i = 1, ..., N (1.1)

Dans cette relation, R(i) représente la réponse du capteur, f(λ) la composition spectrale dustimulus, et ε la demi-largeur de bande de chaque �ltre. L'inconvénient de cette représentationest la nécessité d'avoir un très grand nombre de capteurs pour que l'ensemble des réponses R(i)fasse une bonne approximation de f(λ).

1.2.2 Représentation par espace de couleursCette représentation consiste à décrire une couleur à travers un espace de couleurs à k dimen-

sions. Des expériences psychovisuelles d'égalisation des couleurs ont montré qu'une combinaisonde trois (le même nombre de types de cônes) stimuli particuliers caractérisés par leur longueurd'onde permet de synthétiser presque toutes les couleurs existantes. Plus concise et plus pra-tique que la représentation fréquentielle, cette représentation est couramment utilisée dans letraitement des images.

1.3 Mélange des couleurs

L'axiome de base permettant la description d'un stimulus lumineux au moyen d'un espace decouleurs à k dimensions provient d'expériences dites d'égalisation des couleurs. Cette expé-rience consiste à égaliser visuellement un stimulus lumineux quelconque par un mélange pondéréde plusieurs couleurs dites primaires (arbitrairement choisies sous la seule réserve qu'aucune

36

1.3 Mélange des couleurs

d'entre elles ne puisse être reproduite par un mélange approprié des deux autres). Cette expé-rience peut s'e�ectuer à l'aide d'un système de reproduction de couleurs de type additif commeun moniteur de télévision ou de type soustractif comme un système de �ltres colorés.

1.3.1 Mélange additifTrois couleurs primaires A, B et C sont, après pondération de leurs intensités respectives

par des coe�cients a, b et c, projetées sur un écran avec un certain recouvrement. En jouant surles trois facteurs de pondération, on essaie d'égaliser la couleur recherchée X avec le mélangeaA + bB + cC. Quand l'égalisation est faite, les trois facteurs de pondération déterminent demanière unique la composition de la couleur X à synthétiser (�gure 1.4). Si l'égalisation descouleurs est impossible à réaliser, alors une ou plusieurs des couleurs primaires A, B et C sontadditionnées non pas au mélange synthétique mais à la couleur à dé�nir X (�gure 1.5). Onobtient alors pour cette couleur particulière un ou plusieurs coe�cients de pondération négatifs−a, −b ou −c.Diverses méthodes existent pour procéder au mélange additif. La plus classique consiste à pro-

bB

cC

aA

X

X = aA + bB + cC

Fig. 1.4 � Egalisation normale.

bB

cC

aA

X

X + aA = bB + cCX = −aA + bB + cC

Fig. 1.5 � Egalisation particulière.

jeter les trois couleurs au même endroit et au même moment. Il est aussi possible de projeterles trois couleurs en même temps mais à des positions di�érentes (ex : moniteur de télévision) :on parle alors d'intégration spatiale. Il est �nalement possible de faire les projections au mêmeendroit mais décalées dans le temps (ex : disque de Nipkov) : on parle alors d'intégration tem-porelle. La meilleure illustration du principe du mélange additif est présentée sur la �gure 1.7,où la �couleur� recherchée est un blanc obtenu par juxtaposition des trois couleurs primaires�classiques� : le rouge, le vert et le bleu (avec des facteurs de pondération unitaires et égaux).

1.3.2 Mélange soustractifL'expérience d'égalisation peut aussi se faire par une autre approche qui est celle du mélange

soustractif, propre à la peinture. Dans ce cas, une source lumineuse de spectre connu W éclairesuccessivement trois �ltres colorés A, B et C. Ces �ltres ont pour rôle de soustraire à la lumièreincidente une partie de son spectre, en l'absorbant. Ainsi, un �ltre vert absorbe les rayonnementssitués dans les bleus et les rouges et ne laisse passer que du vert (ex : la chlorophylle). Comme

37


dans le cas de la synthèse additive, la couleur recherchée X est comparée visuellement à la lu-mière résultant du mélange soustractif des trois couleurs de base (cf. �gure 1.6). L'intensité dechaque couleur de base A, B et C est modulée en modi�ant la transmittance de chaque �ltre àl'aide de trois paramètres de pondération a, b et c. En pratique, on utilise des �ltres possédantune densité de pigment variable.

W

X

EcranFiltre CFiltre A Filtre B

Source lumineuseà spectre connu

Source lumineuseproduisant la

couleur à égaler

X = W − ( aA + bB + cC )

Fig. 1.6 � Expérience d'égalisation par soustraction.

De même que pour le mélange additif, l'illustration la plus répandue du principe de synthèsesoustractive est celle de la �gure 1.8 où une lumière blanche �ltrée par trois �ltres cyan, ma-genta, jaune (couleurs complémentaires respectivement du rouge, du vert et du bleu) donne une�couleur� noire.

Fig. 1.7 � Synthèse additive RVB (1 ·R+1 ·V + 1 ·B = Blanc).

Fig. 1.8 � Synthèse soustractive CMJ(Blanc− (1 · C + 1 ·M + 1 · J) = Noir).

1.3.3 Conclusions sur le mélange des couleursPar le passé, de nombreuses expérimentations d'égalisation de couleurs, faisant appel soit à la

méthode additive soit à la méthode soustractive, ont été réalisées sur un grand nombre de stimulilumineux. De ces expériences, il fut possible de conclure qu'un espace de k = 3 couleurs de basepermettait de décrire la presque totalité des stimuli lumineux : on appelle cela le principe de

38

1.4 Espaces de couleurs

trivariance visuelle. Dans le cas du mélange additif, ces trois couleurs sont le rouge, le vert etle bleu alors que pour le mélange soustractif ce sont le cyan, le magenta et le jaune. De par leursimplicité, les espaces tridimensionnels de couleur sont le principal instrument de représentationde la couleur au détriment de la représentation fréquentielle.


Les plus connus des espaces de couleurs sont les espaces RVB en référence à la synthèseadditive qui postule que chaque couleur peut être reproduite à partir de trois couleurs primairesdont les trois plus usitées sont le rouge, le vert et le bleu. Il existe cependant d'autres méthodesde représentation des couleurs qui ont été développées au cours du siècle précédent, et encored'autres qui sont en cours de développement. La nécessité de ces espaces colorimétriques est due àdiverses raisons : certains espaces sont liés à des équipements spéci�ques (télévision, imprimantes,caméras), d'autres ont été développés pour des traitements numériques liés à l'imagerie couleur,il existe aussi des espaces copiant la manière dont la couleur est perçue par les êtres vivants,et �nalement il ne faut pas oublier ceux issus de la recherche fondamentale. Il est possible deconsidérer quatre familles de systèmes de représentation des couleurs :

� les systèmes de primaires ;� les systèmes luminance-chrominance ;� les systèmes perceptuels ;� les systèmes d'axes indépendants.

De manière assez usuelle, un système peut appartenir à plusieurs familles à la fois. En e�et, dansla mesure où chaque famille de systèmes représente des caractéristiques intéressantes selon tel outel paramètre d'étude, de nombreux travaux ont été menés pour concevoir des systèmes couleursqui se rattachent à plusieurs de ces familles. Le tableau 1.1 illustre cet aspect en précisant pourun certain nombre d'espaces à quelles familles ils sont rattachés. Ces espaces sont tous composésde trois composantes, et le passage d'une couleur S à un tristimuli T1, T2, T3 se fait parl'intermédiaire de relations mathématiques, linéaires ou non linéaires.

Tab. 1.1 � Espaces couleur.Système

Famille de primaires luminance-chrominance perceptuel d'axes indépendantsRVB CIE 1931 √

XYZ CIE 1931 √

xyz √ √

RVB NTSC √

CMJ √

UVW CIE 1960 √

YCbCr√

AC1C2√

L*u*v* CIE 1976 √ √

LTS √

L*a*b* √ √

I1I2I3 √ √

39


Les espaces cités dans le tableau précédent sont usuellement présentés dans des ouvragestraitant de la couleur tels que [70], [123] et [138]. Dans les sections à venir consacrées aux quatrefamilles d'espaces, quelques-uns d'entre eux, pouvant être quali�és d'�incontournables�, sontdétaillés. Et nous renvoyons le lecteur à l'annexe A pour avoir des informations plus complèteset complémentaires sur les espaces colorimétriques.

1.4.1 Espaces de primairesLes espaces de primaires sont directement issus du principe de trivariance visuelle (notions de

mélange additif ou soustractif) présenté précédemment. Tous les systèmes de représentation de lacouleur tirent leurs origines de ce principe. Dans ces espaces tridimensionnels, les trois primairesP1, P2 et P3 représentent trois vecteurs non coplanaires qui constituent les vecteurs directeursde base. Ainsi, toute couleur C peut être exprimée, abstraction faite de l'aspect lumineux, dansla base (P1, P2, P3) par l'équation 1.2 (voir également �gure 1.9).

S = p1P1 + p2P2 + p3P3 (1.2)

P1

P2

P3

p2

p3

p1

C

Fig. 1.9 � Espace à 3 primaires.

1.4.1.1 Systèmes RVBPar dé�nition, toute couleur peut être reproduite par superposition de trois primaires rouge,

vert et bleu : c'est la synthèse additive. Il existe cependant autant d'espaces RVB que de primairesR, V et B et de blancs de référence (ou illuminant). L'équation 1.2 caractérisant uniquement lateinte de la couleur résultant de la synthèse additive (et en aucun cas son intensité lumineuse), ilest nécessaire de connaître la luminosité de chacune des trois primaires pour pouvoir caractériserla luminosité de cette couleur.

Plusieurs systèmes de primaires sont communément utilisés tels que le système de primairesCIE qui est dé�ni en référence à l'illuminant E, le système de primaires NTSC (National Te-

40


levision Standards Committee) qui est dé�ni en référence à l'illuminant C et qui caractérise lesprimaires des téléviseurs à tubes cathodiques, et le système de primaires EBU (European Broad-casting Union) qui est dé�ni en référence à l'illuminant D65 et qui caractérise les primaires destéléviseurs à la norme PAL. Ces illuminants sont expliqués à l'annexe A.1.1.1.

Quelque soit le système de primaires utilisé (pas uniquement de type RVB), il existe toujoursune matrice de passage P , inversible, permettant de passer d'un système à un autre. Par exemple,le passage du système NTSC RVB au système CIE RVB se fait grâce à la relation linéairesuivante : RCIE

VCIE

BCIE

=

1, 167 −0, 146 −0, 1510, 114 0, 753 0, 159−0, 001 0, 059 1, 128

RNTSC

VNTSC

BNTSC

(1.3)

1.4.1.1.1 L'espace RVB CIE 1931Cependant, de tous les systèmes RVB, seul le système RVB CIE sert de système de référence

pour la colorimétrie. Ce système a été normalisé par la Commission Internationale de l'Eclairage(CIE) en 1931 grâce à une expérience d'égalisation de couleurs par mélange additif reposant surles trois sources primaires monochromatiques suivantes :

� une primaire rouge avec une longueur d'onde dominante monochromatique à 700, 0nm ;� une primaire verte avec une longueur d'onde dominante monochromatique à 546, 1nm ;� une primaire bleue avec une longueur d'onde dominante monochromatique à 435, 8nm.Pour réaliser l'égalisation entre le mélange additif de ces trois sources Rc, Vc et Bc, et une

couleur monochromatique de longueur d'onde λ, il faut pondérer les trois sources par trois facteursrλ, vλ et bλ (comme précédemment dit à l'équation 1.2). En parcourant la bande de longueurd'onde du spectre de couleurs, de 380nm à 780nm, on obtient ainsi trois fonctions r(λ), v(λ)et b(λ) appelées fonctions colorimétriques ou composantes trichromatiques spectrales (cf. �gure1.10) qui se véri�ent auprès de 90% des observateurs humains.

Fig. 1.10 � Fonctions colorimétriques du système de primaires RVB de l'observateur de référenceCIE 1931. Tiré de [138].

41


En utilisant cette représentation, on voit par exemple que le stimulus monochromatiquedé�ni par λ = 569nm est caractérisé par les facteurs de pondération rλ = vλ = 0, 17 et bλ = 0.De même, le stimulus monochromatique dé�ni par λ = 500nm est décrit par les facteurs depondération rλ = −0, 07 et vλ = bλ = 0.07. La négativité de rλ indique que le �projecteur�rouge a été tourné vers le stimulus et non vers le mélange additif (cf. �gure 1.5). Ces exemplesillustrent les deux cas de mélange additif des couleurs (cf. section 1.3.1).

Au moyen de ces trois courbes expérimentales, il est possible d'analyser n'importe quel sti-mulus lumineux S connu par sa représentation spectrale S(λ). On peut alors obtenir la décom-position de ce stimulus en trois composantes rouge, verte et bleue qui forment le tristimulus RVBde S dans le système RVB CIE. Il est également possible de synthétiser à nouveau le stimulusS en fonction des trois couleurs monochromes primaires Rc, Vc et Bc. Ces primaires présententcertaines particularités. Elles sont normalisées sur le domaine du visible :∫ λmax

λminr(λ)dλ =

∫ λmax

λminv(λ)dλ =

∫ λmax

λminb(λ)dλ (1.4)

Le mélange additif de leurs quantités unitaires conduit à un blanc équi-énergétique (illuminantE) :

E = 1, 0000Rc + 4, 5907Vc + 0, 0601Bc (1.5)De fait, cela revient à �xer la quantité unitaire de Rc à 1, 0000, la quantité unitaire de Vc à 4, 5907et la quantité unitaire de Bc à 0, 0601 ; ces trois valeurs traduisent par ailleurs la luminosité destrois sources.

1.4.1.1.2 Représentation des espaces RVBL'espace des couleurs formé par composition additive des primaires RVB est décrit par le

cube illustré à la �gure 1.11. Toutes les couleurs situées dans le �triangle de Maxwell� reliantles primaires entre elles ont toutes la même valeur de luminance. Il en va de même pour toutesles couleurs situées sur un plan parallèle à ce triangle. La diagonale reliant le noir au blanc,perpendiculaire au triangle, dé�nit l'axe achromatique.

R

V

B

1

1

1

Triangle de Maxwell

Diagonale des niveaux de gris

Fig. 1.11 � Espace des couleurs obtenu à partir des primaires RVB.

42


Il est possible de normaliser des composantes RVB a�n de s'abstraire de l'information deluminance en divisant chaque composante par la somme des trois :

r =R

R + V + B; v =

V

R + V + B; b =

B

R + V + B(1.6)

On peut noter que les composantes normalisées délimitent le triangle de Maxwell. Ce dernier estla représentation graphique des couleurs où r + v + b = 1.

En�n, d'un point de vue technologique, la plupart des systèmes d'acquisition d'images couleurdonnent des images RVB codées sur une échelle de valeurs de 8 bits par composantes : on parlealors d'images RVB 24 bits. Cependant pour avoir un niveau de sensibilité aussi �n que celuidu seuil de di�érenciation de l'÷il humain, il est établi que ce codage devrait être de 12 bitspar composantes. Quelque soit le nombre n de bits utilisé, le cube de la �gure 1.11 se trouvediscrétisé en 2n × 2n × 2n sous-cubes identiques.

1.4.1.2 Système XYZ CIE 1931Les courbes r(λ), v(λ) et b(λ) décrites à la �gure 1.10 présentent un problème particulier :

la courbe r(λ) est négative pour certaines valeurs de longueur d'onde λ. Ceci implique que pourcertains stimuli S, la valeur rλ du tristimulus RVB sera négative. A�n de parer cet inconvénient,la CIE a introduit, également en 1931, un autre espace de couleurs appelé XYZ dont les fonctionscolorimétriques sont x(λ), y(λ) et z(λ) et qui sont présentées à la �gure 1.12. Ces dernières sontsoumises aux contraintes suivantes :

∫ λmax

λminx(λ)dλ =

∫ λmax

λminy(λ)dλ =

∫ λmax

λminz(λ)dλ

avec x(λ), y(λ), z(λ) ≥ 0y(λ) = courbe de sensibilité de l'÷il

(1.7)

Fig. 1.12 � Fonctions colorimétriques du système de primaires XYZ de l'observateur de référenceCIE 1931. Tiré de [138].

Courbe de sensibilité de l'÷il. L'÷il ne présente pas la même sensibilité dans toutes les longueurs

43


d'onde. Une étude statistique réalisée par la CIE a permis de déterminer la sensibilité spectralemoyenne de l'÷il humain. La courbe obtenue, appelée courbe de visibilité, est intégrée danscertains appareils de mesure, a�n qu'ils analysent les couleurs de la même manière que l'hommeles perçoit. Dans la �gure 1.12, la fonction y(λ) correspond aussi à la courbe de sensibilité del'÷il humain.

Comme pour le système RVB, il est possible d'analyser un stimulus S connu par son spectreS(λ) et d'en déduire le tristimuli XYZ. Les composantes X, Y et Z décrivant le stimulus S sontliées aux composantes RVB au moyen de la relation réversible matricielle suivante : XCIE

YCIE

ZCIE

=

2, 7690 1, 7518 1, 13001, 0000 4, 5907 0, 06010, 0000 0, 0565 5, 5943

RCIE

VCIE

BCIE

(1.8)

Remarque : les coe�cients de la deuxième ligne correspondent aux coe�cients de pondéra-tion permettant d'obtenir l'illuminant E à partir des primaires du système CIE RVB. De plus, larelation 1.7 indique que l'illuminant E (blanc équi-énergétique) est toujours le blanc de référence.

1.4.1.2.1 Diagramme chromatique de la CIEEn normalisant le tristimulus XYZ par rapport à la somme des trois composantes, le système

xyz est obtenu. Dans ce nouveau référentiel, seules deux variables sont indépendantes au lieu detrois : x et y. Ces deux variables sont appelées les composantes chromatiques du stimulus S. Lesrelations sont les suivantes :

x =X

X + Y + Z; y =

Y

X + Y + Z; z =

Z

X + Y + Z(1.9)

x + y + z = 1 ; z = 1− (x + y) (1.10)Après transformation du stimulus original S, décrit par sa description spectrale S(λ), en deuxcomposantes normalisées indépendantes x et y, il est possible de synthétiser à nouveau la chro-minance de ce stimulus S à partir de x et y comme le montre la �gure 1.13 qui décrit le plandé�ni par les variables de chrominance x et y. Cette représentation bidimensionnelle appelée dia-gramme chromatique de la CIE uni�e la représentation fréquentielle et la représentation aumoyen de l'espace des couleurs d'un stimulus S. L'annexe A.1.2 présente plus en avant plusieursconsidérations liées à ce diagramme.

1.4.2 Systèmes luminance-chrominanceL'intérêt de ces espaces est, d'une part qu'ils représentent la couleur selon trois dimensions

facilement interprétables et assez intuitives, et d'autre part qu'ils dissocient la luminance descomposantes de chrominance. De nombreux espaces couleur se rattachent à cette famille desystèmes. Ils se di�érencient essentiellement dans la façon dont sont calculées les coordonnées deluminance et de chrominance. Nous renvoyons le lecteur à l'annexe A.2 pour la description dequelques-uns de ces espaces tels que le système CIE UVW, les systèmes YCbCr ou les systèmesantagonistes.

44


Fig. 1.13 � Diagramme chromatique de la CIE. Tiré de [70].

45


1.4.3 Systèmes perceptuelsSont regroupés dans cette famille les systèmes uniformes au sens de la perception visuelle des

couleurs. Nous ne présentons à nouveau que quelques espaces : l'annexe A.3 détaille des espacessupplémentaires tels que le système CIE L*u*v* et l'espace de Munsell.

1.4.3.1 Représentations géométriquesPlusieurs systèmes de représentation de la couleur sont basés sur un partitionnement géo-

métrique d'un espace de type LTS (Luminance, Teinte, Saturation) : cela permet de repérersimplement une couleur par ses coordonnées. L'objectif sous-jacent est de pouvoir classi�er lescouleurs selon un principe basé sur la perception psychovisuelle. La principale di�érence entreces systèmes provient des unités et de la dynamique de chaque axe. Il existe deux familles desystèmes :

� La première repose essentiellement sur des aspects géométriques. Tous les systèmes de cettefamille reposent sur des grandeurs de type Luminance Teinte Saturation mais di�èrent surles méthodes de calcul. L'espace HSI en est un des nombreux représentants.

� La seconde partitionne l'espace en fonction d'un pas de discrétisation qui correspond à laperception des di�érences de couleur. Les systèmes Munsell, NCS (Natural Color System),OSA (Optical Society of America), et cætera, appartiennent à cette famille.

1.4.3.1.1 Système HSIIl est possible de transformer trois composantes R, V et B en deux variables de chrominance

(la teinte et la saturation) et une variable de luminance. L'intérêt d'une telle transformation résidedans l'interprétation facile et intuitive de ces grandeurs. Ainsi l'espace HSI, dont la représentationgraphique est présentée à la �gure 1.14, se déduit aisément des composantes R, V et B du cubede la �gure 1.11.

Blanc

Noir

I

Axe achromatique

0° − Rouge 120° − Vert

240° − Bleu

HS

C

Fig. 1.14 � Espace HSI.

� La diagonale qui relie le point (0, 0, 0), représentant le blanc, au point (1, 1, 1), représen-tant le noir, décrit l'intensité du stimulus lumineux. Cette diagonale devient la variabled'intensité I (intensity).

46


� La distance d'un point quelconque du cube RVB correspondant à une couleur C à l'axed'intensité est une mesure du degré de blanc se trouvant dans C. Une couleur très saturée,caractérisée par une faible proportion de blanc, sera loin de l'axe d'intensité alors qu'unecouleur peu saturée s'en trouvera proche. Cette variable est la saturation S (saturation).

� En�n, l'angle calculé, dans le plan normal à l'axe d'intensité, entre un point, correspondantà une couleur C, et un axe de référence donne la mesure de la teinte de C. Cette variableest la teinte H (hue).

Le passage d'un système RVB normalisé (valeurs des composantes comprises entre 0 et 1) ausystème HSI est donné par les équations non linéaires suivantes :

I =R + V + B

3(1.11a)

S = 1− 3 min(R, V, B)R + V + B

(1.11b)H = cos−1(

0.5((R− V ) + (R−B))√(R− V )2 + (R−B)(V −B)

) si B < V sinon H = 2π −H (1.11c)

L'intensité varie donc de 0 (noir) à 1 (blanc). La saturation n'est pas dé�nie pour le noir (0, 0, 0).Elle varie de 0 (niveaux de gris) à 1 (couleurs du contour). La teinte n'est pas dé�nie pour lesniveaux de gris. La teinte varie de 0 (rouge) à 2π (rouge) en passant par 2π

3 (vert) et 4π3 (bleu).

Par la nature angulaire de la saturation, les schémas pyramidaux de la �gure 1.14 sont aussireprésentés avec une base circulaire. La non-linéarité des équations 1.11b et 1.11c entraîne desdiscontinuités dans les grandeurs H et S. Ces discontinuités sont caractérisées par le fait que deuxcouleurs proches visuellement peuvent se transformer en des composantes de teinte et saturationtrès di�érentes. Le système YIQ, présenté à l'annexe A.2.2, qui transforme également le cubeRVB en une composante de luminance et deux composantes de chrominance ne sou�re pas de ceproblème du fait de la linéarité des équations qui lui sont associées.

Tab. 1.2 � Couleurs principales.Couleur R V B H S IBlanc 0 0 0 n.a. 0 1Niveaux de gris x x x n.a. 0 xNoir 1 1 1 n.a. n.a. 0Primaire Rouge 1 0 0 0 ou 2π (0◦ ou 360◦) 1 1

3Complément Jaune 1 1 0 π3 (60◦) 1 2

3Primaire Vert 0 1 0 2π3 (120◦) 1 1

3Complément Cyan 0 1 1 π (180◦) 1 23Primaire Bleu 0 0 1 4π

3 (240◦) 1 13Complément Magenta 1 0 1 5π

3 (300◦) 1 23

1.4.3.2 Système L*a*b*Cet espace de couleur a été créé a�n de fournir une expression quantitative de classi�cation

des couleurs dans le système de Munsell. Les coordonnées de cet espace sont la luminance L∗,la dominante vert-rouge a∗ et la dominante bleu-jaune b∗ (cf. �gure 1.15). Ces grandeurs se

47


Fig. 1.15 � Espace L*a*b*. Tiré de [84].

déduisent de l'espace XYZ au moyen des relations 1.12.

Si Y

YW> 0, 008856 Alors L∗ = 25

(100

Y

YW

) 13

− 16 ≈ 116(

Y

YW

) 13

− 16

Sinon L∗ = 903, 3Y

YW(1.12a)

a∗ = 500(

f

(X

XW

)− f

(Y

YW

))(1.12b)

b∗ = 200(

f

(Y

YW

)− f

(Z

ZW

))(1.12c)

Où f(x) = x13 si x > 0, 008856 et f(x) = 7, 787x + 16

116 sinon ; où XW , YW et ZW sont lescomposantes XYZ d'un blanc de référence. Cet espace appartient également à la famille dessystèmes Luminance-Chrominance, à la sous-famille des systèmes antagonistes et à la sous-familledes systèmes de type LTS (cf. annexe A.2) si on le décrit en coordonnées polaires :

� Teinte : h∗ab = arctan(

b∗a∗) si a∗ > 0 et b∗ > 0 ;

� Saturation : C∗ab =√

a ∗2 +b∗2.De même que pour le référentiel L*u*v*, on dé�nit la distance entre deux couleurs comme étantla norme du vecteur tridimensionnel qui relie ces deux points.

1.4.4 Systèmes d'axes indépendants

Suivant la distribution des couleurs considérée, on peut observer une corrélation plus ou moinsforte entre les di�érentes composantes du système couleur considéré, et ce pour la majeure partiedes systèmes couleurs. Cette corrélation peut se calculer à partir de la matrice des variances-

48


covariances du système couleur. Soit P cette matrice pour le système P1P2P3, on a alors :

P =

var(P1)2 cov(P1, P2) cov(P1, P3)cov(P1, P2) var(P2)2 cov(P2, P3)cov(P1, P3) cov(P2, P3) var(P3)2

(1.13)

Pour peu que cette corrélation soit relativement forte, il devient impossible de traiter indépen-damment chacune des composantes couleur du système considéré, sauf à perdre l'informationcommune à plusieurs composantes. Pour pallier ce problème, il convient de passer dans un autresystème couleur qui cette fois-ci sera décorrélé (la matrice des variances-covariances est alors dia-gonale). On note en général X1X2X3 cet espace de couleur. Parmi les méthodes qui permettent dedécorréler les composantes d'un système couleur, la transformée de Karhunen-Loeve est la plusutilisée. Cette transformée, basée sur les principes de l'Analyse en Composantes Principales,consiste à dé�nir un nouveau système de représentation des couleurs pour lequel la matrice desvariances-covariances est diagonalisée, c'est à dire un système couleur pour lequel les compo-santes sont à la fois décorrélées et aussi ordonnées par ordre d'importance en fonction de lavaleur de leur variance. Le principal inconvénient de ce type de transformée est qu'elle dépend dela distribution de couleur considérée, autrement dit d'une distribution à l'autre les coe�cients decette transformée sont di�érents. Toutefois, di�érentes études ont montré qu'en imagerie couleur,d'une distribution à l'autre, on obtenait généralement les mêmes coe�cients. L'étude de Ohta[103] montre notamment que pour la plupart des images couleur :

� L'axe principal tend à se superposer avec l'axe de luminance.� Tout ou partie de l'information couleur est portée par le premier ou les deux premiersaxes principaux. Dans la mesure où cette observation n'est pas systématique, il n'est paspossible de réduire l'information couleur à seulement une ou deux composantes.

� Les composantes couleur sont, soit fortement corrélées, soit relativement décorrélées. Ainsi,tandis que les systèmes RVB et XYZ sont fortement corrélés, les systèmes L*a*b* et YCbCr

sont relativement décorrélés : ceci s'explique par le fait que ces derniers appartiennent à lafamille des systèmes de luminance-chrominance.

� Le système couleur décorrélé issu de la transformée de Karhunen-Loeve tend à se confondreavec le système d'axes indépendants I1I2I3.

1.4.4.1 Système I1I2I3

La transformée de Karhunen-Loeve est coûteuse en temps de traitement. Par dé�nition, elledépend de la distribution couleur considérée. Pour la plupart des images, cette transforméeconverge toujours vers le même système d'axes I1I2I3. Dès lors, plutôt que de calculer la trans-formée de Karhunen-Loeve, il est possible d'approximer le système décorrélé recherché par cetespace. Cet espace appartient également à la famille des systèmes de luminance-chrominancepuisque I1 décrit la luminance d'une couleur, et I2, I3 sa chrominance. La transformation qui

49


permet de passer d'un espace RVB à l'espace I1I2I3 est une transformation linéaire : I1

I2

I3

=

13

13

13

12 0 −1

2

−14

12 −1

4

·

R

V

B

(1.14)

1.5 Tendance des travaux actuels

De nombreuses études et applications permettent de se rendre compte des di�érents besoinsauxquels le choix d'un espace couleur doit répondre, mais aussi des di�cultés rencontrées pouraboutir à ce choix. Ces applications sont diverses : extraction de régions en environnement naturel[78], suivi de personnes en mouvement [144], contrôle de qualité d'aliments [86] [73], détectionde visages [134], détection de mélanomes [19], caractérisation des minéraux [72], et cætera. Lesespaces utilisés dans ces travaux répondent le plus souvent à des critères colorimétriques préciset intrinsèques à l'environnement de travail : par exemple une plage de couleurs ou une teintedominante. De fait, il est di�cile de choisir un espace couleur en fonction des critères d'une autreapplication que la sienne. D'autre part et de manière générale, chacune de ces applications sevoit associée à un unique espace. Si l'environnement de travail ne permet pas la désignation d'unespace existant, il faut donc procéder soit à une étude comparative de plusieurs espaces, soità l'élaboration d'un nouvel espace répondant à ses besoins [121]. Dans le dernier cas, l'espacepeut être complètement inédit, partiellement nouveau et découle de modi�cations apportées à unsystème existant, hybride et se compose d'axes colorimétriques provenant de di�érents systèmes.

1.6 Conclusion

Nous avons volontairement limité l'état de l'art sur la couleur aux diverses manières dela représenter numériquement. Dans notre problématique, nous savons que les images que lesystème nous fournira seront par défaut dans un système RVB 24 bits. La question que nousnous posons est de savoir si cet espace par défaut doit être conservé pour les traitements d'imageque nous nous proposons d'e�ectuer, ou s'il faut procéder à un changement vers un espace plus�approprié�. Ne pouvant répondre à cette question, nous allons donc, en plus du développementde traitements couleur, utiliser plusieurs espaces et les comparer. La quantité de ces espaces étantassez importante, nous nous limiterons à un certain nombre de ces espaces.

Après avoir exposé l'élément essentiel de notre problématique qu'est la notion de couleur, nousallons maintenant présenter le cadre applicatif dans lequel nous nous posons à savoir la robotiquemobile d'intérieur et plus précisément celle d'assistance aux personnes à mobilité réduite.

50

Chapitre 2

Robotique mobile et handicap

Après le verbe �aimer�, �aider� est le plus beau verbe du monde.Bertha von Suttner

La robotique mobile permet de trouver des solutions arti�cielles aux problèmes de locomotionet de manipulation résultant d'atteintes au système neuromusculaire, ou résultant d'un a�aiblis-sement physique tel qu'on peut le voir chez les personnes agées. Quel que soit le mal combattu, larobotique mobile apporte avant tout des solutions redonnant autonomie et liberté aux individus ;elle devient alors une robotique d'assistance. Cette préoccupation de vouloir aider touche ungrand nombre de personnes : le vieillissement du corps a�ecte tous les êtres humains à plus oumoins long terme, et les handicaps dus aux maladies ou aux mutilations concernent directementou indirectement de larges pans de la population. De plus, les personnes handicapées qui ne sontplus coupées du monde comme par le passé revendiquent à raison leur droit de vivre comme toutun chacun. Par conséquent, à travers le monde entier, des projets sont menés ou ont abouti à dessystèmes d'assistance des personnes agées, mutilées, ou handicapées [51]. Ces projets sont faitspar des laboratoires de robotique en collaboration ou non avec des organismes comme l'AFMqui est le plus connu en France. Nous pouvons répartir ces systèmes mobiles en deux catégoriesd'assistance :Assistance de vie. Des robots mobiles autonomes comme Care-O-bot ou Pearl ont pour voca-

tion principale d'accompagner l'être humain et de lui faciliter certaines tâches dans la viede tous les jours ;

Assitance à la manipulation. Des systèmes conçus autour de bras manipulateurs comme Ma-nus permettent de rendre à l'homme la capacité de manipuler les objets, capacité qui dé�nitl'homme et l'humanité au même titre que la parole et la cérébralité.

2.1 Assistance de vie

2.1.1 Robots Care-O-botDéveloppé par le Fraunhofer Institute for Manufacturing Engineering and Automation (IPA)

de Stuttgart (Allemagne), la série de robots Care-O-bot [118] désigne un robot mobile de servicedoté de moyens pour interagir avec et assister les êtres humains en environnement public. La plus

51

Chapitre 2 : Robotique mobile et handicap

fameuse application de ce robot est celle de �guide� au Musée de la Communication de Berlin[119]. Initialement, il n'est pas désigné pour des handicaps lourds : il peut servir de déambulateurintelligent mais son rôle est principalement celui d'�interlocuteur� grâce notamment à un systèmede reconnaissance vocale de mots-clefs. Ses champs d'application restent principalement desenvironnements fortement perturbés par la présence d'un public nombreux tels des musées, deshalls d'exposition ou des parcs à thème. Les plus récents développements de ce robot sont équipésd'un bras manipulateur pour permettre la manipulation d'objets. Dans ce cas, le robot remplitsa mission de manière parfaitement autonome dans la mesure où sa mission est compréhensibleet réalisable [120].

D'un point de vue conceptuel, Care-O-bot est un robot non-holonome équipé de deux rouesmotrices et de quatre roues stabilisatrices. Les capteurs qui l'équipent sont, outre l'odométriedes roues motrices, un gyroscope et une caméra laser 2D. La localisation du robot dans sonenvironnement est assurée par les données odométriques qui fournissent sa position absolue etpar le gyroscope qui indique son orientation. La caméra laser est utilisée activement pour lanavigation et l'évitement d'obstacles. Le système de navigation de Care-O-bot est basé sur leconcept de bande élastique (elastic band) [112] qui lie plani�cation de trajectoire et contrôle tempsréel d'un robot. La bande élastique désigne un chemin déformable évitant les obstacles et soumisà des forces arti�cielles. Ce chemin est représenté à travers une séquence de �bulles� connectéesentre elles. Ces bulles sont créées en examinant les espaces libres le long de la trajectoire pré-établie du robot. La bande élastique se déforme en temps réel pour prendre en compte un éventuelobstacle et le contourner. Cette méthode est originalement prévue pour des systèmes holonomesmais elle a été adaptée à des robots tels Care-O-bot [148].

2.1.2 Robot PearlDans la même veine que Care-O-bot, le robot Pearl - Personal Robotic Assistants For The

Elderly - est un robot dédié à l'aide et à l'accompagnement des personnes agées dans les mai-sons de repos [109]. Il est développé par le Robotics Institute de l'université de Carnegie Mellon(Etats-Unis) dans le cadre d'un projet de robots in�rmiers (nursebot project). Ses fonctionna-lités comprennent la communication, l'accompagnement, la délivrance de messages personnelsou autres informations générales, et la livraison de petits objets. Il peut ainsi rechercher unepersonne, l'accompagner à la salle de bain, la prévenir de l'heure de son repas, lui apporter sesmédicaments, et cætera ; toutes ses tâches sont dévolues en temps normal au personnel soignant.Ces fonctions sont rendues possibles grâce à des systèmes de reconnaissance et de synthèse vocale,de détection et de poursuite de visage, et de connaissance des activités passées et prévisionnellesdes pensionnaires.

Concrètement, Pearl est un robot non-holonome équipé de deux roues motrices, d'une liaisonréseau sans �l, d'un écran tactile, d'une tête et d'un faciès interactif, d'enceintes audio. Sescapteurs comprennent un microphone, des capteurs laser et ultrasonores, et un système de visionstéréoscopique. Il est également doté de poignées de marche et d'une aire de stockage. Les activitésdu robot sont décidées par un logiciel de gestion des activités du pensionnaire [108]. Une foisl'activité décidée, le robot cherche à localiser sa position par rapport à la personne qu'il doitassister : Pearl utilise l'algorithme de localisation de Monte-Carlo [24] avec un chemin estimé

52

2.2 Assistance à la manipulation

grâce à un �ltre particulaire similaire à celui de Rao-Blackwellized [29]. L'ensemble des fonctionde Pearl est supervisé par un processus décisionnel partiellement observable de Markov (POMDP)[61] utilisant ainsi des techniques de raisonnement probabilistique.

2.2 Assistance à la manipulation

Di�érents projets ou produits compensant une dé�cience de la préhension humaine existentqui se distinguent par le support sur lequel ils sont montés. Des bras comme Afmaster ou Handy1sont montés sur des bases �xes alors que des bras comme Manus sont prévus pour équiper desfauteuils roulants. Une troisième catégorie d'assistance est celle qui voit des bras montés sur desbases mobiles ne transportant pas la personne handicapée : projets Movaid ou Arph.

2.2.1 Bras manipulateur sur base �xeUn des plus anciens concepts de bras manipulateur destiné à aider une personne handicapée

est Spartacus, développé par le Commissariat à l'Energie Atomique (CEA) et qui date des années80 [4]. Spartacus fut à la base, dans les années 90, des projets Master - Manipulator Autonomousat Service of Tetraplegics for - [27], puis Raid/Epi-Raid - Robot for Assisting the Integrationof the Disabled / Evaluation of Prototype and Improvements to the RAID workstation - [59].Ces projets perdurent à travers le système Afmaster, développé et commercialisé par la sociétéAFMA-Robotics en collaboration avec l'association Approche. Ce système est centré autourd'un bras ÷uvrant dans un espace dé�ni et immuable composé d'étagères et d'un plan de travailcouvrant une super�cie de 10m2 [42]. Les étagères peuvent contenir divers appareils multimédiaset électroménagers, des livres, et cætera. Le bras est commandable, via une interface informatisée,soit par commande vocale, soit par clavier, soit par souris. Deux modes de pilotage des tâchessont prévus. Le mode manuel permet à l'utilisateur de commander directement le bras alorsque le mode automatique permet la résolution de tâches préprogrammées et demandées parl'utilisateur, de manière parfaitement automatique. L'inconvénient de ce système est que chaqueobjet doit être à un endroit précis sous peine de voir les tâches automatisées ne pas aboutir.

Un autre concept de bras monté sur une base �xe est Handy1, développé par RehabRoboticsde l'université de Sta�ordshire (Royaume-Uni) [136], qui est une station spécialisée dans une tâchedonnée construite autour d'un bras manipulateur. Il existe trois versions de ce projet dédiées àla restauration, aux soins hygiéniques et aux soins esthétiques. Ces trois versions se distinguentpar trois plans de travail spéci�ques et autant de con�gurations du bras manipulateur. D'autressystèmes existent comme la série de stations DeVAR - Desktop Vocational Assistive Robot -conçues autour d'un bras industriel Puma 260 [145], ou la station Regenesis développée par lafondation Neil Squire de Vancouver (Canada) qui repose sur un bras manipulateur à six degrésde liberté �xé à une barre horizontale au-dessus d'un lit ou d'une table [35].

2.2.2 Bras manipulateur sur fauteuil roulantDéveloppé en 1985, aux Pays-Bas, par l'IRV Hoensbroek - Insitute for Rehabilitation, De-

velopment and Knowledge Transfer in the Fields of Rehabilitation and Handicap et par TNO(à Delft), puis commercialisé depuis 1990 par la société néerlandaise Exact Dynamics, le bras

53


Manus est un bras robotisé de faible poids qui se monte sur une chaise roulante [71]. Sa concep-tion vise à favoriser l'indépendance des personnes handicapées en leur redonnant une capacité depréhension. Techniquement, il dispose de six degrés de liberté et son extrémité distale est équipéed'une pince à deux doigts permettant la saisie d'objets (d'une masse inférieure à 1,5 kg) commel'illustre la �gure 2.1. Ces degrés de liberté rendent possible la saisie à partir de toutes les di-rections de l'espace. Le bras peut se mouvoir suivant un système de coordonnées cartésiennes ouarticulaires. Le premier mode de commande est le plus intuitif pour l'utilisateur puisqu'il consisteà déplacer un point, situé au niveau de la pince, dans l'espace en suivant des lignes droites. Lesecond mode est plus simple d'un point de vue robotique puisqu'il consiste à commander chaquearticulation, ou degré de liberté, du bras indépendamment des autres. La �gure 2.2 illustre cesdi�érences. L'utilisateur pilote le bras au choix à partir d'un boîtier à touches ou d'un joystick, etun indicateur digital le renseigne sur les états de fonctionnement du bras. Il est toutefois possiblede piloter le bras à partir d'un ordinateur.

Fixation aufauteuilroulant

Unité desupport

Unité de levage

Poignée

Epaule

Bras

Coude

Base

Pince

Poignet

Avant−bras

Fig. 2.1 � Bras Manus. Tiré de [30].

Mode cartésien : déplacements Mode articulaire : rotationle long de lignes droites de chaque axe séparément

Axe 3

Axe 2

Axe 1

Ouverture /Fermeture

Axe 6

Axe 4

5

y

z

x

Haut /Bas

Fig. 2.2 � Modes de déplacements de Manus.Tiré de [30].

Nous pouvons également citer le bras Raptor de RTD-ARC - Rehabilitation TechnologiesDivision of Applied Resources Corporation - (New Jersey, Etats-Unis) [85]. Plus simple que lebras Manus avec seulement quatre degrés de liberté et une pince �nale, il est également moinssophistiqué en terme d'interface utilisateur.

2.2.3 Bras manipulateur sur base mobileQuand un bras manipulateur est commandable via un ordinateur, le concept de base mobile

prend place. En e�et, l'emploi d'un ordinateur permet de commander à distance le bras grâcenotamment à des liaisons sans �l. L'utilité d'une telle commande apparaît quand le bras estplacé sur une base mobile elle-même commandable à distance. L'utilisateur dispose alors d'unensemble, plus ou moins autonome, qu'il peut envoyer en mission à son bon vouloir.

Nous commencerons par citer le projet Movar - Mobile Vocational Assistive Robot - de l'uni-versité de Stanford (Etats-Unis) [146]. Ce système se compose d'un bras Puma 250 monté surune plate-forme omnidirectionnelle à trois roues motrices et équipé d'une caméra. La console decontrôle du robot comporte trois écrans pour la gestion des déplacements, l'état du système, etla vue de la caméra montée sur le bras. Les commandes peuvent se faire par clavier, oralement

54

2.3 Autres systèmes d'assistance robotisée

ou par mouvements du visage. Conçu dans les années 80, Movar sou�re de défauts dus à latechnologie. Les erreurs d'odométrie ne sont pas compensées par d'autres capteurs et le robot seperd quand les données le situent à un emplacement di�érent de la réalité. Le peu de puissancedes ordinateurs rend impossible les calculs complexes notamment au niveau de la commande dubras. L'absence d'intelligence arti�cielle complexi�e la tâche de l'utilisateur qui doit se chargerde commander tous les éléments du système. En�n, la conception de la base est telle que le brasne peut pas saisir des objets au niveau du sol. Malgré ses défauts, ce projet a ouvert la voie àcette catégorie de robot.

Plus récent, le système Movaid - MObility and actiVity AssIstance system for the Disabled- est issu d'un partenariat européen dirigé par l'école supérieure Sainte-Anne (Italie) [23]. Cesystème propose une base mobile qui s'arrime à di�érentes stations de travail dans une maison :les tâches que Movaid e�ectue sont propres à chaque station de travail. La base est un véhiculeà trois roues, dont deux motrices, et est équipée entre autres de capteurs ultrasonores, d'unbras Dexter se terminant par une main Marcus, et d'une caméra pan-tilt. Movaid navigue enévitant les obstacles grâce aux échanges de données entre la base et les stations. Divers degrésd'autonomie existent qui vont de la réalisation d'une tâche préprogrammée par le robot seul àune téléopération complète par l'utilisateur.

Toujours dans cette catégorie de robot d'assistance, nous trouvons le projet d'Assistance Ro-botisée aux Personnes Handicapées - projet Arph - développé par le Laboratoires des SystèmesComplexes de l'université d'Evry. Ce projet, dé�ni en collaboration avec l'AFM, a pour objectifla restauration partielle ou complète de la fonction �manipulation� d'une personne handica-pée. Nous consacrons la section suivante à la description de ce projet qui béné�cie des travauxprésentés dans ce manuscrit.

2.3 Autres systèmes d'assistance robotisée

En plus des robots autonomes et des systèmes d'assistance à la manipulation, il existe desprojets qui n'entrent pas dans ces deux familles. Nous citons notamment le projet Vahm - Vé-hicule Autonome pour Handicapés Moteur - développé au sein du Laboratoire d'Automatiquedes Systèmes Coopératifs (LASC) [111]. Le Vahm est un fauteuil intelligent qui a pour objectifd'assister une personne handicapée dans ses déplacements dans un environnement plus ou moinsconnu et variable. Dans le cadre de la conduite d'un fauteuil, l'utilisateur handicapé doit restermaître du véhicule a�n de ne pas se sentir transporté : cette problématique rejoint celle du projetArph comme nous le verrons après. Cependant le handicap physique pose deux problèmes quisont l'imprécision du mouvement et la fatigue qu'engendre l'e�ort de concentration. Pour cesraisons, le système Vahm propose deux types d'assistance :

� La dé�nition du mouvement du fauteuil est réalisée via une interface type joystick qui, selonle handicap, traduit l'action à générer en terme de direction. Le fauteuil prend alors à sacharge l'évaluation de la pertinence de cette information et la traduit en comportementà e�ectuer. Cette �traduction� garantit au système la stabilité de la commande et unemeilleure gestion des erreurs de dé�nition.

� La plani�cation du mouvement global est entièrement déterminée par l'utilisateur mais lefauteuil vient assister la personne dans la reproduction de chemins fréquemment employés.

55


La structure de commande est basée sur un système multiagent qui réalise la reconnaissance del'état du système et de l'environnment proche, et qui permet de dé�nir le comportement le plusapproprié a�n de réaliser le mouvement demandé par l'utilisateur. L'interaction entre l'hommeet la machine se fait donc dans le sens où la machine assiste l'homme dans la réalisation de sonmouvement mais ne réalise aucune tâche de plani�cation.

2.4 Le projet Arph

2.4.1 Pourquoi Arph ?Les individus à qui s'adresse ce projet sont des personnes handicapées des membres supérieurs,

paraplégiques ou tétraplégiques. Ces handicaps ont en commun la paralysie, complète ou partielle,des mains, avant-bras et bras. Bien que pouvant se déplacer seules ou à l'aide d'un fauteuilroulant, ces personnes ont perdu l'usage original de l'organe préhenseur - la main - et se voientdans l'impossibilité de réaliser les nombreuses tâches de la vie quotidienne ; du moins, ne peuvent-elles pas le faire seules ou sans e�orts démesurés. Ce problème devient critique quand il s'agitde tâches vitales telles que la sustentation ou les soins hygiéniques et médicaux. De plus, enfonction du handicap ou non des membres inférieurs, cela concerne soit l'environnement proche- vision directe -, soit l'environnement distant - vision indirecte -. Le projet Arph a été conçuet développé en réponse à cette problématique et en respectant deux conditions imposées parl'AFM.

1. La première contrainte a trait à la dé�nition du besoin réel d'une personne handicapée.L'AFM rapporte ainsi que la volonté de l'opérateur humain d'agir par lui-même est pri-mordiale. Le robot ne doit donc pas �faire à la place� de la personne mais �pallier� sesdé�ciences. Un robot complètement autonome est par conséquent hors de propos.

2. La seconde contrainte est d'ordre �nancière. En e�et, le coût de l'assistance doit êtresu�samment faible pour que des personnes handicapées puissent y accéder. Cela a�ecteles choix technologiques retenus. Par exemple, il conviendra de se passer de caméras lasersrelativement onéreuses. De même, limiter ou prohiber des modi�cations du lieu de résidencesera intéressant d'autant plus que cela facilitera l'intégration du système dans le lieu de vieainsi que sa maintenance.

Nous avons vu que les robots d'assistance de vie ne sont pas vraiment conçus pour aiderles personnes handicapées, ils sont onéreux - près de 100000 euros pour Pearl - et peu ou pastéléopérables. Leur vocation d'accompagnement et leur autonomie ne correspondent pas auxdésirs de liberté et de propre prise en charge des personnes handicapées. Les stations �xes, dontles coûts varient fortement - de 9000 euros pour Handy1 à 50000 euros pour Afmaster -, nerépondent guère aux exigences de l'AFM : pas de liberté de mouvement et immuabilité du cadrede vie pour ne pas mettre en défaut les systèmes. Les bras sur fauteuil roulant sont di�ciles àcommander à moins d'être �virtuose� du clavier et ils obligent l'handicapé à toujours être actifet en pleine possession de ses moyens. Les bras sur base mobile sont ceux qui donnent le plusde liberté, qui peuvent être commandés via une interface informatisée adaptée au handicap, etqui donnent la possibilité au malade de se décharger de certaines tâches. Cependant tous nerépondent pas aux exigences énnoncées. Ainsi Movaid nécessite l'aménagement du cadre de vie

56

2.4 Le projet Arph

et, de fait, manque de �exibilité dans l'utilisation quotidienne. Arph se place donc comme unesolution rendant plus d'autonomie, de liberté et de considération aux malades que les robotsd'assistance de vie ou que les bras intégrés à des stations de travail �xes ou montés sur desfauteuils roulants, et étant moins dépendante d'aménagements spéci�ques.

2.4.2 Description du systèmeArph se présente comme un système robotisé, semi-autonome et commandable à distance,

dont la composante principale est un bras manipulateur monté sur un robot mobile. Ce dernierest un robot d'assistance à proprement parler et il communique avec une station de contrôle quiest systématiquement à proximité de l'opérateur (voir �gure 2.3).

Ecran de contrôle

Station de contrôle Robot d’assistance

Commandes(ex : joystick)

Personne handicapée(opérateur)

Bras manipulateurCaméra Pan tilt

Ceinture decapteurs àultrasons

Roues motrices(capteur

odométrique)

liaison sans fil

Calculateurcommande

informe

Fig. 2.3 � Le système d'assistance Arph.

Fruits de di�érents choix technologiques liés au domaine bien particulier qu'est le handicapmoteur, les principaux éléments du robot d'assistance sont :La base mobile. Elle s'inspire le plus possible d'un fauteuil roulant électrique pour des raisons

de �abilité et de maintenance. La technologie DX de Dynamic a été retenue car très répan-due dans ce domaine. Cette technologie se base sur l'assemblage de modules indépendantsa�n de piloter les divers périphériques DX d'un fauteuil : joystick, moteurs, klaxon, feux,et cætera. Ces modules sont reliés entre eux par bus CAN, et une interface �DXKey� faitla passerelle entre ce système modulaire et le port parallèle ou série d'un PC. Les dépla-cements sont assurés par deux roues motrices et une roue �folle� de stabilisation : c'estdonc un système non-holonome. Le châssis, de forme circulaire, est adapté à l'utilisationdes capteurs à ultrasons installés sur la demi-sphère avant du robot. Ses dimensions sontréduites au maximum pour simpli�er sa commande, notamment dans le cas d'un franchis-sement de porte. En�n, même en série limitée, son coût est faible car seul le chassis estcher. La matière première et la main d'oeuvre pour réaliser le châssis sont très bon marchéune fois le moule créé. Une série de quelques dizaines su�t à dépasser la rentabilité d'unebase de fauteuil roulant électrique.

57


Le bras Manus r©. Présenté précédemment, c'est le bras manipulateur mobile, commandableà distance et spécialement conçu pour les personnes handicapées, dont nous équipons labase mobile. Muni d'un bus CAN, il est pilotable par un PC muni d'une carte CAN et estcompatible avec la technologie DX.

Les capteurs extéroceptifs. Le module de perception extéroceptif se compose d'une ceintureultrasonore et d'une caméra couleur orientable en site et azimut (caméra Sony EVI-D31 pantilt). Le rôle de la ceinture est actuellement limité à la détection d'obstacles. L'adjonctiond'une caméra s'est imposée d'une part pour que l'utilisateur puisse béné�cier d'un retourvisuel quand le robot se trouve dans une autre pièce (vision indirecte), et d'autre part parceque Arph utilise des données visuelles pour certains de ses processus tels la localisation etun mode de commande où la base se déplace dans la direction de la caméra.

Les capteurs proprioceptifs. Le module de perception proprioceptif se compose des capteursodométriques des deux roues motrices et sert à la localisation relative du robot.

Le calculateur embarqué. C'est un PC qui regroupe tous les éléments dits �serveurs� dusystème. Ces éléments permettent d'accéder aux di�érentes ressources : moteurs, capteursultrasons, caméra, odométrie, bras manipulateur. De part la proximité physique des res-sources, tous les algorithmes mathématiques mis en ÷uvre en cours d'utilisation sont exé-cutés par ce PC. Il permet aussi la communication avec la station de contrôle. Technique-ment, c'est un ordinateur de bureau dans une �tour�, équipé d'un processeur Intel Pentium4 tournant à 2, 4GHz, et doté de 512Mo de mémoire vive ; le système d'exploitation utiliséest Mandrake Linux 9.2.

Les images de la �gure 2.4 présentent le prototype du robot ARPH.

Fig. 2.4 � Prototype de la base mobile. Tirés de [18].

La station de contrôle dont l'opérateur humain est le centre comprend :Les commandes. Elles sont adaptées au handicap de l'opérateur : joystick, clavier, commande

vocale, et cætera.

58

2.4 Le projet Arph

Le calculateur de commande. Le système est basé sur une architecture Clients-Serveurs.Alorsque les éléments �serveurs� sont implantés sur le PC embarqué du robot, les éléments�clients� sont implantés sur le PC de la station de contrôle. A travers une interface dérivéedu projet ARITI [105], ces éléments donnent à l'utilisateur la possibilité de communiqueravec le robot à partir d'un PC muni d'un navigateur internet. Une liaison Ethernet TCP/IPsans �l à haute fréquence relie les deux calculateurs.

L'écran et l'IHM. L'interface homme-machine est projetée sur l'écran de contrôle de l'utili-sateur. C'est par son intermédiaire que l'utlisateur commande la base et le bras et estinformé de la situation. Elle inclut une image caméra temps réel, une vue virtuelle de lascène correspondant à la vue caméra, une vue virtuelle 2D du robot dans son environne-ment,les commandes de la base et du bras, et un retour des capteurs à ultrasons indiquantla présence d'obstacles devant le robot.

2.4.3 De l'autonomie du robot à la coopération avec l'hommeLe choix de développer une machine qui est semi-autonome par la présence de l'homme

dans la chaîne - boucle - de commande et de contrôle impose de suivre deux axes de recherchecomplémentaires. Le premier axe de recherche concerne l'intégration de l'homme dans un systèmeautomatisé et la coopération qui doit exister entre l'homme et la machine. Le deuxième axe derecherche concerne l'automatisation des tâches que la coopération attribue à la machine. Nousrevenons alors à des problèmes de robotique pure dans la limite de notre champ d'application.

2.4.3.1 Coopération homme-machine - CHM -A partir de la connaissance de notre système, il est possible de tirer partie des capacités à la

fois du système et de l'homme. D'un côté, nous cherchons à donner au robot des comportementssimilaires à ceux de l'homme, notamment en ce qui concerne ses déplacements, et d'un autre côténous utilisons les capacités d'adaptation de l'homme à incorporer dans son schéma corporel desobjets extérieurs - capacités utiles pour la manipulation d'objets -. L'analyse de la composantehumaine, menée au laboratoire [116], a conditionné pour ces deux points les solutions implantéesdans Arph. Plusieurs modes de commande sont o�erts à l'opérateur pour piloter les déplacementsde la base mobile. Ils peuvent être regroupés en trois grands types :

1. le mode automatique pour lequel la machine atteint automatiquement l'objectif désignépar la personne (ce mode n'est pas voulu mais il permet aux modes partagés d'hériter deses processus) ;

2. les modes partagés pour lesquels le contrôle des degrés de liberté du robot est partagé entrela machine et la personne ;

3. le mode manuel qui correspond à la téléopération ou contrôle à distance du robot.L'objectif du projet Arph étant de (re)donner de l'autonomie à des personnes qui n'en ontplus, la manipulation d'objets de la vie courante est au centre de cette préoccupation. Le LSCmène donc des travaux sur la saisie et la manipulation d'objets avec, pour objectif, de fournir àl'utilisateur des modes de commande du bras manipulateur lui permettant d'aller chercher desobjets. La démarche est identique à celle développée pour le mouvement c'est à dire l'analyse des

59


possibilités de commandes automatiques puis le développement de modes de commande mixtesentre l'opérateur et le système [137].

2.4.3.2 Automatismes de ArphSi l'objectif �nal de ARPH est la réalisation satisfaisante d'une mission par l'opérateur avec

l'aide du système, il convient aussi d'étudier les capacités d'autonomie du robot a�n de proposerà l'utilisateur les di�érentes assistances précises et e�caces dont nous avons parlé précédemment.Pour commander la base mobile, il faut choisir une trajectoire et la suivre. Cela fait appel à desnotions de plani�cation de trajectoire et de navigation. Elles sont basées sur la connaissance dela position de la base mobile dans son environnement.Plani�cation de trajectoire. La plani�cation consiste à dé�nir le chemin à suivre pour aller

d'un point à un autre de l'environnement. Elle requiert une connaissance au moins partiellede l'environnement.

Navigation. La navigation consiste à suivre le chemin fourni par la plani�cation de trajectoire.Le problème principal est d'éviter des objets non modélisés, donc non pris en compte parla plani�cation.

Localisation de la base mobile. La plani�cation et la navigation ont besoin de connaîtrela position du robot par rapport à son environnement. De même, lors du parcours dechemin calculé, le robot doit pouvoir savoir où il en est. Le problème est de calculer, avecune �abilité su�sante et un temps de calcul raisonnable, la position du mobile dans unenvironnement partiellement connu et ceci avec un système de perception le plus simplepossible a�n de limiter la complexité et les coûts. De premières études ont porté sur lapossibilité de localisation en utilisant les mêmes capteurs à ultrasons que ceux utiliséspour l'évitement d'obstacle et en fusionnant leurs données avec les données odométriques[53]. Cette approche a donné des résultats dans des environnements peu encombrés mais,lorsque le nombre d'objets non modélisés augmente, les seules mesures de distance sont troppauvres pour obtenir une localisation. Une seconde approche a été explorée qui utilise lavision monoculaire avec l'apport possible mais pas obligatoire de l'odométrie. La démarcheest la suivante :1. Acquisition d'une image ;2. Segmentation de l'image : l'environnement est décrit sous la forme de segments de

droite, très nombreux dans un environnement d'intérieur ;3. Mise en correspondance des segments extraits de l'image avec ceux d'un modèle de

l'environnement ;4. Calcul de la position du robot.

Les travaux correspondant à ces étapes ont été menés par Omar Ait Aider [1] et continuentavec Mohamed Trabelsi [137] ; ils se rapprochent des techniques de localisation incrémentaleque nous verrons au chapitre suivant.

60

2.5 Conclusion

2.5 Conclusion

Des travaux complémentaires ont été menés autour de la problématique de Arph. HumbertoLoaÏza [80] a notamment proposé une solution pour connaître la distance entre robot et objets dela scène à partir d'un capteur de vision stéréoscopique. Cette solution ainsi que les automatismes,implantés ou étudiés dans Arph et dépendant de données visuelles, sont des processus de vision...monochromatique. Par là, nous entendons une vision fonction de l'intensité lumineuse. Notrepropos dans ce manuscrit est de dépasser cette limite et d'exploiter la colorimétrie pour lalocalisation du robot : la couleur nous parait être une donnée importante dans un environnementdomestique, capable de limiter ou d'éviter l'appareillage du dit environnement. Nos travaux seprésentent comme une alternative à ceux menés jusqu'à maintenant et actuels ; deux voies sontexplorées : une localisation ��ne� utilisant un capteur stéréoscopique couleur pour déterminerla distance aux obstacles a�n de les éviter, et une localisation �globale� basée sur une visionmonoculaire couleur pour situer le lieu du robot en cas de perdition. Dans le chapitre suivant,nous conclurons l'état de l'art en étudiant plus en avant ce qui se fait en vision en robotiquemobile d'intérieur. Ce point nous permettra de savoir si notre travail de recherche est approprié,et si nous retrouvons cette préoccupation dans d'autres laboratoires de recherche.

61

Chapitre 3

La vision en robotique mobile

d'intérieur

D'abord voir, après savoir.Proverbe turc

Notre objectif est d'utiliser la couleur dans des traitements qui sont le plus souvent conçuspour des images en niveaux de gris. Nous avons vu que la couleur pouvait être représentée deplusieurs façons, et la manière de l'utiliser dépend fort logiquement du traitement auquel nousl'appliquons. Or ce domaine est très vaste : nous ne pouvons pas prétendre étudier l'apport de lacouleur à l'ensemble des traitements d'image existants. Le développement du projet Arph nousdonne la possibilité de choisir le cadre dans lequel nous allons étudier, implanter et évaluer lacouleur. Ce domaine est la robotique mobile d'intérieur, et plus particulièrement la navigationbasée sur la vision qui nécessite plusieurs traitements pour que, d'une ou plusieurs images, unrobot soit en mesure de connaître sa position et puisse se déplacer. Dans ce chapitre, nous allonsprésenter un aperçu des principales méthodes développées dans ce domaine.

Les premiers travaux en robotique mobile remontent au début des années 80. Ils ont montréqu'un robot mobile doté d'un système de vision doit avoir une connaissance a priori de sonenvironnement pour 1◦) savoir ce qu'il voit, et 2◦) pouvoir y naviguer. Cette connaissance étantessentiellement de natures métrique et géométrique, les modèles DAO furent les premiers utilisés.Puis vinrent des modèles plus simples comme les grilles d'occupation, les cartes topologiques, oules séquences d'images. Dans ce dernier cas, le système de navigation utilise des algorithmes decomparaison entre image perçue en cours de déplacement et image(s) d'une base. DeSouza [26]regroupe les approches de navigation par vision en trois catégories :Navigation basée sur un modèle (hors-ligne). Le système utilise un modèle de l'environ-

nement préalablement dé�ni ou renseigné par l'humain.Navigation par reconstruction de modèle (en-ligne). Le système construit, grâce à ses

capteurs, le modèle de son environnement qu'il utilise pour se localiser.Navigation sans modèle. Le système n'utilise pas de représentation explicite de l'environne-

ment mais se base sur la reconnaissance et la poursuite d'objets reconnus sur les prises devue.

63

Chapitre 3 : La vision en robotique mobile d'intérieur

3.1 Navigation basée sur modèle

Ici, l'élément essentiel est de fournir au système de navigation un ensemble de primitivespotentiellement visibles et détectables par des techniques de vision par ordinateur. Le système aalors pour tâche de trouver puis d'identi�er ces primitives dans les images. Les primitives sontidenti�ées en les confrontant au modèle à disposition. Si elles sont en nombre su�sant, le robotpeut déterminer la position et l'orientation lui permettant de voir ces primitives. Ce processusde localisation peut ainsi être divisé en quatre étapes distinctes :Acquisition de l'information. Une scène de l'environnement est acquise puis digitalisée sous

forme d'image. Selon les systèmes, ce peut être une paire ou une séquence de plusieursimages.

Détection des primitives (ou repères, ou amers). Les repères peuvent être naturellementprésents ou amenés sciemment dans l'environnement. Pour être détectés, ils doivent sedistinguer du reste de la scène dans une image : ce peut être, par exemple, les contoursou la couleur de certains objets. Les outils usuels pour extraire les primitives d'une imageincluent l'extraction de contours et la segmentation en régions.

Mise en correspondance des observations avec le modèle. Le système cherche à quellesprimitives du modèle de l'environnement correspondent celles observées.

Calcul de la position et de l'orientation du robot. Une fois les repères identi�és, le sys-tème peut calculer la position et l'orientation du capteur de vision (et donc du robot) grâceà la connaissance qu'il possède de leur position sur la carte.

Deux types de connaissance a priori sont nécessaires pour réaliser ces quatre étapes. Il s'agitdu modèle de l'environnement et du modèle du capteur. Chacune des trois dernières étapesde localisation et chacune des connaissances a priori représente en soit un vaste domaine derecherche aussi nous ne présenterons que brièvement certains de ces points.

3.1.1 Modélisation de l'environnementLa littérature, notamment DeSouza [26] et Filliat [37], distingue deux grandes familles de

modèles : les métriques (dont les modèles DAO et les grilles d'occupation) et les topologiques.La �gure 3.1 illustre aisément ces modèles que nous présentons succintement ci-dessous. Cesmodèles peuvent être soit construits par l'humain et fournis au système, soit construits grâce auxperceptions (capteurs extéroceptifs) du robot. Dans les applications orientées vision, les segments,surfaces ou volumes sont les plus utilisés car d'une part bien adaptés à la représentation d'unenvironnement d'intérieur semi-structuré, et d'autre part détectables par traitement d'image.

3.1.1.1 Modèles topologiquesLes cartes topologiques permettent de représenter l'environnement sous forme de graphe. Les

n÷uds du graphe correspondent à des lieux ou espaces atteignables par le robot. Les arêtes liantles n÷uds marquent la possibilité de passer directement d'un lieu à un autre et mémorisent engénéral la manière de réaliser ce passage. La détection et la mémorisation des lieux reposenten général sur deux procédures qui utilisent les perceptions. La première permet de comparer

64


y

x

I

B

B

B

P

P

P

C

CC

(z) Carte métrique

I

C2a C1

C2b P1

B1

P2

B2P3

B3

Carte topologique

Environnement réel

Fig. 3.1 � Les deux grands types de modélisation de l'environnement : topologique d'une part(dans cet exemple, B=Bureau, C=Couloir, I=Intersection et P=Porte), et métrique d'autre part.

deux perceptions et donc de reconnaître un lieu de la carte ou de détecter un lieu nouveau.La seconde procédure permet de mémoriser un nouveau lieu ou d'adapter la dé�nition d'unlieu lors des passages successifs du robot en ce lieu. La première procédure peut donner desrésultats erronés à cause d'erreurs de perception. Par exemple, un lieu déjà visité peut ne pasêtre reconnu, ou un lieu nouveau peut être confondu avec un lieu déjà mémorisé. Pour résoudreces problèmes, la reconnaissance des lieux fera appel à des données proprioceptives en plus desperceptions. Les données mémorisées dans les arêtes du graphe sur les relations de voisinageentre lieux proviennent notamment des données proprioceptives. Cela est caractéristique descartes topologiques dans lesquelles les perceptions ne sont pas utilisées pour estimer les positionsrelatives des lieux visités, mais seulement pour reconnaître un lieu. Les données proprioceptivespeuvent être des informations sur les positions relatives des n÷uds, ou des informations sur lesactions à e�ectuer pour parcourir cette arête. Un exemple de perception est donné dans [142] oùle capteur est une caméra. Des images couleur sont prises à une fréquence de 1Hz et libelléesavec l'endroit où elles ont été prises. Les vues sont ensuite comparées grâce à des histogrammesunidimensionnels.

Pour de plus amples informations sur les cartes topologiques, nous renvoyons le lecteur auxtravaux de Thrun [135], et de Kuipers et Byun [68].

3.1.1.2 Modèles métriquesDans une carte métrique, l'environnement est représenté par un ensemble d'objets auxquels

sont associées des positions dans un espace métrique, généralement en deux dimensions. Cetespace est, la plupart du temps, celui dans lequel s'exprime la position du robot estimée par

65


les données proprioceptives. Les perceptions permettent, en utilisant un modèle métrique descapteurs, de détecter ces objets et d'estimer leur position par rapport au robot. La position de cesobjets dans l'environnement est alors calculée en utilisant la position estimée du robot. La fusiondes deux sources d'information au sein d'un même cadre de représentation est caractéristiquedes cartes métriques.

Deux méthodes principales sont utilisées pour mémoriser des informations sous forme de cartemétrique. La première méthode consiste à extraire explicitement des objets (ou primitives) desperceptions et à les enregistrer dans la carte avec leur position estimée. Les objets peuvent êtrede types très variés et se situer à di�érents niveaux d'abstraction : points, points orientés oufrontières d'objets. Dans ce dernier cas, ce sont très souvent des lignes (segments de droite) oudes polygones (coins, plans, cylindres). La seconde méthode s'attache à représenter directementl'espace libre accessible au robot et les zones d'obstacles qu'il ne peut pas franchir, sans avoirrecours à l'identi�cation d'objets individuels : ce sont les grilles d'occupation.

Pour de plus amples informations sur les grilles d'occupation, spéci�quement, nous renvoyonsle lecteur aux travaux de Moravec et Elfes [99], et de Thrun [135] à nouveau.

3.1.2 Modélisation du capteur

Dans une image, les données observées sont représentées dans un espace à deux dimensionsalors que l'environnement est souvent modélisé dans un espace tridimensionnel. Pour permettrela mise en correspondance entre une primitive donnée de l'image et une primitive du modèle, oule calcul de la position et de l'orientation de la caméra, il faut modéliser mathématiquement leprocessus de formation de l'image. Autrement dit, il faut choisir les équations mathématiques deprojection d'un point de l'espace sur le plan de l'image et identi�er leurs paramètres [33]. Plu-sieurs modèles de caméra existent. Ils di�èrent entre eux par plusieurs aspects tels la perspectiveet les distorsions. Les valeurs de ces paramètres doivent être identi�ées expérimentalement pourreprésenter le plus �dèlement possible le canal physique d'acquisition. C'est l'opération de cali-brage. Les nombreuses méthodes de calibrage peuvent être regroupées en deux grandes familles :calibrage grâce à des objets de référence ou calibrage automatique (autocalibrage). La préci-sion de l'identi�cation du modèle de la caméra détermine celle du calcul de la position et del'orientation.

3.1.3 Mise en correspondance des primitives observées avec celles du modèle

La troisième étape est sans doute la plus di�cile pour deux raisons. Premièrement, elle im-plique une recherche qui dépend des connaissances que l'on a de l'environnement. Deuxièmement,elle doit tenir compte du fait que la position du robot peut être approximative. Les diverses ap-proches de localisation basée sur la vision peuvent être réparties en trois familles qui di�èrent parla manière dont sont prises en compte ces di�cultés. Ce sont la localisation absolue ou globale,la localisation incrémentale, et la localisation basée sur la poursuite de primitives.

66


3.1.3.1 Localisation absolue ou globaleLe postulat de départ de la localisation absolue est la méconnaissance de la position et de

l'orientation du robot. Ce genre de situation se retrouve lors de la mise en service du robot oulors d'un dysfonctionnement du système. Cette capacité est très importante du point de vuede l'autonomie car elle permet au robot de trouver sa localisation dans toutes les conditionssans intervention extérieure. De manière typique, sans estimation initiale de la localisation, lacorrespondance entre observation et modèle de l'environnement est di�cile : le risque de faireune mauvaise correspondance est élevé à cause des symétries et autres ressemblances au sein dumodèle. La solution consiste, le plus souvent, à accroître le nombre de données en multipliant lesobservations de manière à lever toute ambiguïté. Parmi, les nombreuses méthodes de localisa-tion absolue existantes, nous citerons la localisation de Markov [39], les traitements de Markovpartiellement observables [125], la localisation de Monte-Carlo [24], le �ltrage de Kalman multi-hypothèses basé sur des mixtures de gaussiennes [22], l'utilisation de tolérances pour représenterles erreurs [7][67], la triangulation déterministe [131], et cætera. La plupart de ces méthodes nesont pas spéci�ques à des données visuelles aussi nous ne présenterons que quelques travauxinitialement conçus via l'emploi de caméra.

3.1.3.1.1 Atiya et Hagger [7]En 1988, Sugihara [131] liste di�érents problèmes de localisation inhérents à la navigation d'un

robot utilisant une caméra unique et une carte de son environnement. Mais, après avoir supposéque la position du robot et l'identiti�cation des primitives obervées ne sont pas établies, il réduit larecherche d'une correspondance observation-modèle à un simple problème de calcul géométrique.En 1989, Krotkov [67] étend ce travail en proposant une méthode prenant en compte les erreursd'observation. En 1993, Atiya et Hager développent un algorithme temps réel qui corrige lesdéfauts des deux précédents travaux à savoir la non-prise en compte d'erreur d'observation deSugihara (déjà corrigé par Krotkov) et l'acceptation par Krotkov de fausses correspondances.Atiya et Hager proposent en e�et d'appliquer des tolérances aux erreurs de perception et nonune distribution de probabilité comme cela se faisait.

Le problème de base est l'appariement des mesures e�ectuées avec un modèle existant. Lesystème de perception est composé de deux caméras. Les primitives du modèle utilisées sont dessegments de droite verticaux dont les projections sur le plan (x, y) sont connues par rapport auréférentiel W du monde : ils sont notés p1, p2, . . ., pn. Soit o1, o2, . . ., om les observations dansle référentiel caméra C. Soit Γ = (x, y, θ) la position du repère R lié au robot par rapport à W

(autrement dit, la position et l'orientation du robot dans l'environnement). La mise en corres-pondance d'une observation oi avec un point pj est un t-uplet λ =< oi, pj >, et un étiquetageΛ = {< oi, pj >} est un ensemble de telles correspondances. Un étiquetage est dit consistant siune observation n'est en relation qu'avec une primitive du modèle (ou amer) dans le référentielW .

Dans le cas idéal, sans erreurs, le problème est le suivant :� Etant donné n points p1, p2, . . ., pn et m observations o1, o2, . . ., om, déterminer s'il existe

un étiquetage Λ unique et consistant et une position Γ tels que : oi = I(cTw(Γ)pj), ∀ < oi, pj >∈ Λoù I est une transformation d'image non linéaire et cTw la matrice de passage de W à C.�

67


En pratique, des erreurs de mesure et de positionnement a priori des amers sont commises.Soit ε ∈ <2 une tolérance sur les observations, et δi ∈ <2, i = 1, . . ., n celles sur la position desamers. On dé�nit alors pi = [pi− δi, pi + δi] et oi = [oi−ε, oi +ε]. La localisation est alors diviséeen deux sous-problèmes :

Problème 1 Etant donné n points-intervalles p1, p2, . . ., pn et m observations-intervalles o1,o2, . . ., om, déterminer s'il existe un étiquetage Λ unique et consistant pour plusieurs positionsΓ du robot tel que : I(cTw(Γ)pj)

⋂oi 6= ∅, ∀ < oi, pj >∈ Λ (�qu'est-ce qui est vu ?�).

Problème 2 Etant donné l'étiquetage décrit ci-dessus, déterminer l'ensemble de toutes les po-sitions P consistantes avec Λ, soit : P = {Γ | I(cTw(Γ)pj)

⋂oi 6= ∅, ∀ < oi, pj >∈ Λ} (�où le

robot est-il situé ?�).

Pour simpli�er la mise en correspondance, il est intéressant de trouver une représentation desamers invariante par rotation et translation. Si l'on groupe les points par trois, on obtient destriangles dont les trois longueurs et les trois angles sont des invariants.

3.1.3.1.2 Méthode de localisation à deux points [3]La caméra est secondée par un plan laser : une coupe de l'environnement est alors détectée. De

celle-ci, des points peuvent être extraits. A partir de deux points R(XR, YR) et L(XL, YL) dansle référentiel Rr lié au robot, la position de ce dernier est calculée par rapport à l'environnement.Un référentiel RIJ lié aux deux points précédents est dé�ni, comme le montre la �gure 3.2.

OrYL

Yr

Xr

XL

Θ

I

J

R

L

Fig. 3.2 � Référentiels du robot lié à deux points du monde.

Et il reste à écrire la matrice de passage de RIJ à Rr :

IJTr =

CΘ SΘ 0 −XL · Cθ − YL · SΘ−SΘ CΘ 0 XL · Sθ − YL · CΘ

0 0 1 00 0 0 1

(3.1)

68


Connaissant (XR, YR) et (XL, YL), l'angle vaut :

Θ =

arctan( YR−YL

XR−XL) si XL < XR

−π2 si XL = XR

arctan( YR−YLXR−XL

)− π si XL > XR

(3.2)

et la position est : {I = −XL · CΘ− YL · SΘJ = XL · SΘ− YL · CΘ

(3.3)

Ainsi, la position absolue du robot est déterminée si les points R et L sont mis en correspon-dance avec des points de l'environnement. Cependant, cette méthode ne tient pas compte desincertitudes de mesure.

3.1.3.2 Localisation incrémentaleContrairement à la localisation absolue, la localisation incrémentale suppose que la position

et l'orientation du robot sont connues, même approximativement. La localisation du robot estfournie par un système de localisation relative (odométrie), ou par prédiction de l'évolution dela position et de l'orientation en tenant compte des commandes de navigation générées par lesystème. Ce faisant, les erreurs induites par le système se conservent et s'accumulent au furet à mesure des déplacements du robot. Les systèmes de vision sont donc mis à contributionpour resituer le robot mais avec une contrainte de recherche aux seules primitives du modèle quipeuvent être détectées dans l'intervalle de position et d'orientation considéré.

3.1.3.2.1 Système Finale [66]Le système Finale fait de la localisation incrémentale en utilisant un modèle géométrique

de son environnement et un modèle statistique des erreurs de positionnement du robot. Quatreéléments clés constituent le système :

� Représentation des erreurs de position selon une distribution gaussienne ;� Détermination et paramétrisation des mouvements que le robot doit faire en réponse auxcommandes de déplacements (en translation et en rotation) ;

� Détermination des nouvelles erreurs de position suite au déplacement ;� Modélisation de la position à partir d'un �ltre de Kalman.

La �gure 3.3 illustre les di�érentes étapes de l'algorithme de localisation du système Finale.

3.1.3.2.2 Chenavier [17]Pour cette méthode, le choix d'utiliser une caméra est guidé par la grande richesse des infor-

mations disponibles. La technique est donc une identi�cation d'amers dans l'image, puis une miseen correspondance pour la mise à jour de la position estimée par l'odométrie. L'incertitude dela position de la caméra par rapport au robot mobile est bien sûr prise en compte. L'algorithmed'identi�cation des amers est décrit à la �gure 3.4. Il est fortement lié à la vision. Néanmoins,les problèmes généraux d'identi�cation d'amers et la mise en correspondance sont à prendre encompte quels que soient les capteurs choisis.

69


Imagecaméra

Modèle DAO

Report des incertitudes Extraction sélective de primitives

Incertitudes depositionnement

du robot

Carteen cours

Carte derégions

d’incertitudes

Restriction sur les régionsde recherche Primitives

extraites

(filtre de Kalman)Appariement

Résultat del’appariement

Fig. 3.3 � Etapes du processus de localisation utilisé dans Finale.

Module d’identificationd’amers

Définition d’une zoned’intéret sur l’image

Extraction despoints de contour

Transformées deHough possibles

Forme probable de l’amer Saisie d’une image

Liste d’amers à viser

Transformée de Hough

Mise en correspondance

Autresamers dans

la liste ?

Non

Fin

Oui

Fig. 3.4 � Algorithme d'identi�cation des amers de Chenavier.

70

3.2 Navigation par reconstruction de modèle (en-ligne)

3.1.3.2.3 Système Neuro-Nav [89] / Fuzzy-Nav [106]Cette approche est complètement di�érente des deux précédentes puisqu'elle se base sur un

modèle topologique et non plus métrique. Le système se compose de deux modules utilisant desréseaux de neurones spécialisés. Le premier module a la charge des déplacements du robot, et lesecond la détection des amers situés dans le n÷ud où se trouve le robot (cf. section 3.1.1.1). Lesystème de vision utilise un �ltre de Sobel pour extraire les contours d'une image ; ces contourssont transformés via la transformée de Hough et alimentent le second module. L'ensemble desréseaux de neurones utilisés dans le système est contrôlé par un �contrôleur de supervision basésur des règles�. Une version plus sophistiquée a été développée où le système est contrôlé par un�contrôleur de supervision �ou� basé sur de la logique �oue.

3.1.3.3 Localisation basée sur la poursuite de primitivesCette localisation est possible si la position du robot et l'identité des primitives observées

sont connues et peuvent être suivies. Les primitives utilisées peuvent être arti�cielles, comme descodes barres [60] et des bandes ré�échissantes [141], ou naturelles [49], comme des portes et desfenêtres. Dans de nombreux cas, la poursuite consiste en un appariement de primitives observéesavec celles d'un modèle. Le système visuel pointe en permanence vers une primitive, ce qui limiteles déplacements du robot.

3.2 Navigation par reconstruction de modèle (en-ligne)

Les méthodes de localisation basées sur la vision, qui ont été présentées jusqu'à maintenant,nécessitaient la connaissance préalable de l'environnement à travers un modèle. Il est cependantdes applications où avoir un modèle n'est pas facile, notamment en l'absence de mesures précises.C'est ainsi que des robots capables d'explorer leur environnement et de générer leur propremodèle ont été conçus. Nous pouvons citer, notamment, un robot développé par l'Université deStanford par Moravec [99]. Ce robot utilise une caméra pour saisir une série d'images desquellessont extraites des primitives. Corrélées entre elles, les primitives fournissent des coordonnées 3Dqui, projetées sur une grille, représentent le monde. Ce procédé est pratique pour générer destrajectoires puisque tous les obstacles sont pris en compte. Cependant le modèle créé reste éloignéde ceux préconçus. De plus, la modélisation complète de l'environnement est coûteuse en temps (lerobot cité en exemple parcourt vingt mètres en cinq heures). Des développements supplémentairesexistent tel l'ajout d'informations odométriques ou ultrasonores aux coordonnées 3D issues ducapteur de vision : méthode des grilles d'histogramme ou méthode Vector Field Histogram.

3.2.1 Simultaneous Localization And MappingLes techniques appelées SLAM opèrent simultanément la construction d'une carte de l'envi-

ronnement et la localisation. Cela permet notamment de compenser les erreurs d'estimation de laposition à chaque nouvelle acquisition de données. La �gure 3.5 illustre ce propos. Dans la partieA, un robot dans sa position initiale perçoit trois amers (trois coins) et les insère dans une carte.Dans la partie B, le robot se déplace, sa position est connue avec incertitude et les trois amerssont à nouveau observés. Cette observation est fusionnée avec la carte précédemment construite

71


ce qui permet de diminuer les incertitudes sur les positions des amers et sur la position du robot(partie D). Il est à remarquer que cette gestion de la carte est incrémentale.

� � � ��

� � � ��

� � � � ��

� � � � ��

� � � ��

� � � ��

� � � ��

� � � ��

� � � ��

� � � ��

� � � � ��

� � � ��

� � � ��

� � � � ��

� � � � ��

� � � � ��

� � � � ��

� � � � ��

� � � � ��

� � � ��

� � � ��

BA C D

Fig. 3.5 � Méthodologie SLAM.

De manière générale les méthodes SLAM suivent l'algorithme décrit à la �gure 3.6.

(odométrie, centrale inertielle)Proprioception

Environnement

Robot

Perception(télémètre laser, vision,vision panoramique, ...)

Association de données(distance de Mahalanobis, ...)

Estimation(FKE, FIE, Particule, ...)

Carte

Position du robot

Fig. 3.6 � Algorithme général SLAM.

Les di�érents blocs de l'algorithme sont :Perception. Les algorithmes de perception fournissent à partir des données issues de capteurs

tels qu'un télémètre laser, une caméra ... un ensemble d'observations des éléments de l'en-vironnement qui constituent des amers.

Association de données. Etant donné une observation, ce bloc décide si cette observationcorrespond à un amer déjà présent dans la carte, et de quel amer il s'agit, ou si c'est unnouvel amer à ajouter à la carte (sous forme de point ou de segment).

Proprioception. Les données proprioceptives sont des mesures internes au système qui ren-seignent sur l'évolution de son état. Comme pour les autres méthodes de localisation, cequi intéresse le SLAM est la position du robot dont l'évolution est fournie par des capteursodométriques ou une centrale inertielle.

Estimation. Ce bloc intègre les données issues de la perception et de la proprioception a�nde fournir une estimée de la position du robot et des positions des amers, ainsi que les

72

3.3 Navigation sans modèle

incertitudes liées à ces estimées. La méthode originale [128] utilise un �ltre de Kalmanétendu (SLAM-FKE) mais des travaux ultérieurs proposent d'autres solutions comme parexemple un �ltre particulaire (FastSLAM) [98].

3.3 Navigation sans modèle

Dans cette catégorie de navigation, il n'est plus question de cartes ou de modèles a prioriou a posteriori. Les informations extraites des observations sont les seules informations utiliséespar les processus de navigation, que ce soit la localisation ou les déplacements. Deux types denavigation sans modèle prédominent : la première est basée sur les �ots optiques et la secondesur les apparences. Une troisième technique moins répandue existe également qui est basée surla reconnaissance d'objets.

3.3.1 Navigation par �ot optiqueLa navigation par �ot optique se base sur les di�érences entre deux acquisitions d'images et

non pas sur le contenu et la signi�cation de ce qui est perçu. Dans la nature, un tel systèmese trouve par exemple chez l'abeille. De part la structure et la disposition latérale des yeux, lavision des abeilles permet de déterminer si un objet est en mouvement ou pas, quel qu'il soit.L'information de profondeur est faible mais la réactivité du système très élevée. Le robot Robee[117] a été développé en s'inspirant de cette forme de vision. Le robot est doté d'un systèmestéréoscopique (caméra latérale droite et caméra latérale gauche) qui évalue la �vélocité� desimages acquises. Si le robot est situé au milieu d'un couloir, la di�érence entre les deux �otsoptiques est nulle et le système maintient la trajectoire du robot. Mais si les vélocités sontdi�érentes, alors le système oriente le robot du côté où la vélocité est la plus faible.

3.3.2 Navigation par apparenceCette catégorie de navigation, ne dépendant pas d'un modèle, se base sur la �mémorisation�

de l'environnement. L'idée est de stocker les images de l'environnement et de leur associer descommandes ou contrôles permettant d'amener le robot à une destination �nale.

Nous pouvons citer les travaux de Gaussier et Joulain [41] qui ont développé une approcheutilisant des réseaux de neurones et des indices visuels pour associer perceptions de l'environne-ment et actions. A la base, se trouvent les concepts de �cellules de lieux� et de �cellules de vue�.Des recherches ont montré que certaines cellules du cerveau des rats ont une activité maximalequand ces derniers se trouvent à un endroit précis. De même, chez les primates, l'activité decertaines cellules s'accroît quand les animaux voient certaines choses. Pratiquement, le robot estdoté d'une caméra qui capture une image quasi panoramique de l'environnement. Un traitementd'image fournit un vecteur d'intensités moyennes pondérées (selon l'axe horizontal de l'image).Ce signal est ensuite dérivé pour dé�nir des vues locales de l'image à fort contraste. L'ensemblede toutes les vues locales pour une image panoramique donnée forme une �place� de l'environ-nement. Chaque place est associée à une orientation donnée par une boussole. Un réseau deneurones permet d'apprendre l'association place-direction, et de guider le robot à sa destinationen navigation e�ective.

73


D'autres travaux existent qui lient les actions des robots à une perception visuelle de l'envi-ronnement. Une technique consiste à représenter le chemin menant à une destination comme unesuccession d'images que le robot s'e�orcera de reproduire [87]. Une dernière technique associe àune image de l'environnement, une série d'actions que le robot doit entreprendre dès qu'il observecette image [58].

3.3.3 Navigation par reconnaissance d'objetsQuand un modèle est disponible, il est facile de donner des objectifs à un robot. Dans le

cas contraire, le système robotisé se contente de déplacements �aléatoires�. La raison de cettedi�érence tient au fait que, dans le premier cas, un opérateur humain peut spéci�er au robot despoints de destination internes au modèle. En l'absence de modèle, quand le robot utilise une destechniques de navigation par apparence, il ne dispose le plus souvent que d'un nombre limité deséquences d'images lui permettant d'agir. Kim et Nevatia [64] ont proposé une alternative quiest une navigation �symbolique�. Dans ce cas, les commandes sont de la forme �va à la porte�ou �va au bureau devant toi�, et le système utilise l'information symbolique contenue dans cescommandes pour établir l'objet à reconnaître et le chemin menant à la destination. Par exemple,�va au bureau devant toi� informe le robot que l'objet à identi�er est le bureau et que le cheminqu'il doit suivre est une ligne droite. La reconnaissance de la cible se fait via un système devision.

3.4 Conclusion

De manière spéci�que, les méthodes de localisation basées sur des données visuelles n'utilisentpas la couleur. Le système de navigation de Arph se rapproche des méthodes de localisationincrémentale qui consistent à utiliser la vision au fur et à mesure des déplacements du robotpour corriger les erreurs dues à l'odométrie. Dans ce manuscrit, nous proposons des alternativesà ce qui a été fait mais utilisant spéci�quement la couleur. Nous proposons ainsi une localisation��ne� qui détermine la distance par rapport aux objets et qui est préliminaire à des méthodes delocalisation incrémentale. Elle peut également servir à de la localisation absolue si un modèle del'environnement est disponible. Nous proposons également une localisation �globale� qui consisteà comparer une prise de vue à une base d'images de l'environnement potentiel du robot. Cettesolution imprécise fournit au robot des informations utiles pour initier une relocalisation aprèsperdition, à savoir le lieu où il est et son orientation dans ce lieu. Cette approche se rapprochedes méthodes sans modèle et est, à notre connaissance, originale.

74

Apports de la couleur pour la

localisation ��ne� d'un robot mobile

75

Chapitre 4

Système stéréoscopique noir et blanc

Il n'y pas de lumière sans ombre.Louis Aragon

Les travaux présentés dans ce manuscrit sont basés sur ceux de Humberto Loaïza [80]. La pro-blématique d'alors était la conception d'un système bon marché de localisation et de navigationd'une base mobile via une chaîne de traitements d'images stéréocopiques et monochromatiques(noir et blanc) décrite à la �gure 4.1.

de visionCapteur

Correction d’images

primitivesExtraction deMise en

correspondancedes primitives

Reconstruction3D

Représentation(s)"haut niveau"

de la scène

Représentation(s)"bas niveau"de la scène

Acquisition d’images

Fig. 4.1 � Schéma-bloc de la chaîne de traitements d'images.

Capteur de vision. Le capteur développé est constitué de deux caméras noir et blanc, peuonéreuses mais de piètre qualité, positionnées l'une au dessus de l'autre (capteur vertical)et montées sur une tourelle rotative. La caméra du bas est orientée vers le sol tandis quecelle du haut est orientée à l'horizontale. Les deux champs de vision se superposent ainsipartiellement. La �gure 4.2 montre le capteur monté sur une base mobile.

Acquisition d'images. Trois con�gurations de prise d'images sont envisagées pour fournir dif-férents types de paires stéréoscopiques : statique, en rotation et dynamique. En statique,le robot est à l'arrêt et une unique saisie d'images fournit simultanément deux images. Enrotation, le robot est toujours à l'arrêt mais, après une première prise d'images, la tourellepivote pour une seconde saisie : quatre images sont donc acquises. En dynamique, aprèsune première acquisition, le robot se déplace en translation puis une seconde acquisitionest faite : quatre images sont également acquises.

77

Chapitre 4 : Système stéréoscopique noir et blanc

Fig. 4.2 � Capteur orginal sur une base.

Représentation �bas niveau� de la scène. Cette expression désigne la manière la plus élé-mentaire (ou bas niveau) de décrire les images et qui consiste en un ensemble de pointsélémentaires (ou pixels) décrits par une intensité lumineuse. Autrement dit, ce sont lesimages en niveaux de gris.

Correction d'images. Les deux caméras composant le capteur de vision fournissent des imagesfortement déformées et cette étape permet de les corriger. Les défauts principaux sontune distorsion radiale importante (images en �tonneau�) et une sous-exposition (images�sombres�).

Extraction des primitives. Les images acquises proposent une quantité très élevée de pixelsqui ne contiennent pas tous une information pertinente. Il est di�cile de concevoir uneapplication réaliste en terme de temps de calcul à partir de telles données. Il est préférablede fractionner les images en régions d'intérêts, également appelées primitives ou indicesvisuels, qui sont des ensembles de pixels présentant des propriétés similaires et porteursd'une information utile. Des descripteurs, ou caractéristiques, traduisent ces propriétés etsont systématiquement associés aux indices : on dispose ainsi d'une forme d'informationplus concise qu'une image brute. Pour la représentation de scènes d'intérieur, les primitiveschoisies sont les segments de droite approchant au mieux les points de contour de l'image.

Représentation �haut niveau� de la scène. Les segments de droite précédemment acquissont rassemblés dans un graphe de voisinage. Cette structure de données contient desinformations concernant les descripteurs et les relations de voisinage de chaque segment.

Mise en correspondance des primitives. Une fonction de classi�cation automatique baséesur les descripteurs de primitives décide si deux segments issus de chacune des imagesstéréoscopiques constituent ou non une paire stéréoscopique, c'est à dire s'ils correspondenttous deux à la même partie de la scène. Cette classi�cation est hybride puisqu'elle consisteen une double classi�cation suivant les méthodes bayésienne et neuronale.

Reconstruction 3D. La reconstruction 3D de l'environnement s'e�ectue à partir des para-mètres des paires de segments appariés. C'est �nalement l'information 3D qui sert àconnaître la position du robot.

78

4.1 Méthode d'extraction des primitives noir et blanc


4.1.1 Choix du type de primitiveIl existe trois types de primitives qui peuvent être extraites des images : les points (pixels,

points d'intérêts, jonctions, ...), les pixels de contours (courbes ou segments de droites), et lesrégions d'images (plans, cylindres, sphères, ...). Les pixels de contour ont été retenus car les seg-ments de droites qui en découlent sont des objets géométriques simples, invariants par projectionperspective, et qui présentent des caractéristiques basées sur l'intensité de lumière. Cependant,les contours d'objets sont délicats à détecter puisqu'un contour n'est pas forcément associé à unobjet, qu'il peut être dû à des ombres ou autres jeux de lumière, qu'il est sensible aux bruits etaux textures. Il existe plusieurs méthodes pour détecter les contours d'une image, les plus simplesbasées sur le calcul de la dérivée d'intensité. Ces méthodes s'appuient sur le fait qu'un contourcorrespond à une grande variation locale de la fonction d'intensité en une direction perpendicu-laire au contour. Le paradigme général utilisé pour la détection de contours est une méthode àdeux étapes (cf. �gure 4.3) :

1. Obtenir une image où l'intensité des contours est rehaussée ;2. Créer une image binaire contour/non-contour en seuillant l'image obtenue en 1.

Rehausseur decontours

Imageoriginale

Imageenrichie

Seuillage decontours

Imagebinaire

Fig. 4.3 � Paradigme classique pour la détection de contours.

4.1.2 Rehaussement de contoursUne approche �gradient� a été choisie car elle permet de récupérer les angles aigus générale-

ment présents dans les scènes d'intérieur. Le gradient est calculé par approximation en utilisantles �ltres optimaux de lissage et de dérivation de Deriche [25]. Ce dernier, à partir du forma-lisme de Canny [12], a proposé une solution basée sur un �ltre à réponse in�nie en modi�ant lesconditions initiales :

f(x) = −c · x · e−α|x| où c =(1− e−α)2

e−α(4.1)

Ce �ltre est plus performant que celui de Canny. De plus, l'opérateur de Deriche est assez simpleet ne présente qu'un seul paramètre α. Ce paramètre règle le compromis entre les critères delocalisation et de détection : si α diminue, la localisation diminue mais le rapport signal sur bruitaugmente, ce qui se traduit par une meilleure détection des contours, et vice versa. Le compromischoisi par Loaïza est obtenu pour une valeur de α égale à 1. Pour améliorer l'immunité au bruitde l'image I(x, y), un lissage est préalablement appliqué au calcul du gradient de l'image. Le�ltre utilisé est la combinaison de deux �ltres unidimensionnels dans les directions x et y. Le�ltre de lissage h(x) unidimensionnel est l'intégrale du �ltre optimal f(x) de Deriche :

h(x) = k(α|x|+ 1)e−α|x| (4.2)

79


Le calcul des composantes Ix et Iy du gradient se fait à partir des dérivées selon x et y duproduit de convolution de l'image par le �ltre de lissage. Compte tenu des règles de dérivationde l'opération de convolution et de la séparabilité du �ltre de lissage :

Ix =δIf (x, y)

δx= [I(x, y) ∗ h(y)] ∗ δh(x)

δx= [I(x, y) ∗ h(y)] ∗ f(x) (4.3a)

Iy =δIf (x, y)

δy= [I(x, y) ∗ h(x)] ∗ δh(y)

δy= [I(x, y) ∗ h(x)] ∗ f(y) (4.3b)

La norme MG et l'angle AG du gradient se déduisent par :

MG =√

I2x + I2

y (4.4a)AG = arctan

Iy

Ix(4.4b)

En pratique, la méthode pour obtenir le gradient des images est décrite à la �gure 4.4.

Image d’entréeI(x,y)

Filtre 1D

Lissage h(y)

Filtre 1D

Lissage h(x)

Filtre 1D

Dérivée f(x)

Filtre 1D

Dérivée f(y)

Normedu gradient

du gradientAngle

Fig. 4.4 � Procédure générale pour l'obtention du gradient.

4.1.3 Extraction de contours et création de segmentsLe calcul du gradient, bien que constituant la partie essentielle de la détection des contours, ne

fournit pas directement les points de contour et des étapes supplémentaires sont donc nécessairespour aboutir à une représentation des images par des segments de droite (qui sont les primitivesretenues). L'utilisation de segments de droite, pour approcher un contour, a le double avantagede lisser le contour et de réduire la quantité d'information à stocker. De nombreuses méthodesde segmentation ou approximations polygonales existent qui sont itératives ou récursives selon letraitement, en ��ot de données� ou non, des points détectés dans l'étape de suivi de contour. Laméthode de segmentation par hystérésis utilisée permet de regrouper l'étape de suivi des pointsde contours et la procédure de segmentation. Cette méthode est fondée sur un seuillage parhystérésis des maxima locaux qui permet la détection des points de contour, et sur des critères dedéviation de surface et d'écart entre pixels qui contribuent à la création des segments de droite.Les seuils utilisés sont calculés automatiquement selon une méthode originale développée parLoaïza basée sur une �approximation exponentielle de l'histogramme de la norme du gradient�[81]. L'algorithme général de l'extraction de contours et de la segmentation est illustré sur la�gure 4.5. Les �gures 4.6 et 4.7 montrent un exemple de prise d'images stéréoscopiques verticales

80


noir et blanc et de segments construits.

Image

gradientAngle duNorme

du gradient

Maxima locaux du gradient

Histogrammedes normesdu gradient

Calcul des seuils

Seuil_bas, Seuil_haut

Seuillage par hystérésis

Images binarisées

par hystérésisSegmentation

Segments

Fig. 4.5 � Algorithme général pour l'extraction de contours et la construction des segments.

81


Fig. 4.6 � Exemple de prise d'images : caméra haute à gauche et caméra basse à droite.

Fig. 4.7 � Exemple de segments créés à partir des images précédentes.

4.1.4 Descripteurs des primitivesA�n de décider si deux segments issus de deux images di�érentes d'une scène correspondent

au même contour d'objet, il faut être en mesure de décrire ces segments mais aussi leur voisinage.Pour ce faire dix-neuf descripteurs de natures di�érentes sont calculés lors de la segmentation oua posteriori (selon la nature du descripteur).Attributs géométriques :

� Les coordonnées du milieu du segment (obtenues à partir des coordonnées des extrémi-tés) ;

� La longueur du segment ;� L'angle β du segment par rapport à l'axe horizontale (β ∈ [0◦, 180◦[ ).

Attributs de luminance :� La moyenne de la norme du gradient calculée le long du segment ;� La moyenne des niveaux de gris des régions à gauche et à droite du segment ;� Les contrastes internes des régions à gauche et à droite du segment.

Attributs de texture : Les di�érences entre les niveaux de gris dans les régions à gauche et àdroite du segment (une par direction élémentaire : 0◦, 45◦, 90◦, 135◦).

Attributs de voisinage :� Liste de fenêtres intersectées par le segment ;

82

4.2 Mise en correspondance des primitives

� Liste de segments voisins.Plusieurs de ces descripteurs sont dé�nis par rapport à la notion de région le long du segment.

Les régions sont des zones à �gauche� et à �droite� du segment (Rg, Rd), dé�nies entre deuxdistances perpendiculaires au segment (lmin, lmax). Les régions sont donc des zones rectangulairesde surface (lmax − lmin)× L, L étant la longueur du segment (cf. �gure 4.8). Loaïza dé�nit lmin

à deux pixels et lmax à six pixels.

lmax

lminy

x

segment

β

L

R g

R d

Fig. 4.8 � Voisinage d'un segment.

Les attributs de voisinage font appel à la technique dite des buckets [6] qui permet, par undécoupage judicieux de l'espace en cellules homogènes, de structurer e�cacement des donnéesmultidimensionnelles et de construire un graphe de voisinage (des segments dans le cas présent).L'utilisation d'une telle structure permet de réduire de façon importante le nombre de segmentsparcourus au cours de la recherche des segments à apparier.


Une fois les segments recensés et leurs descripteurs calculés dans un graphe de voisinage dessegments (représentation haut niveau), pour chaque image, il faut déterminer quels segments desdeux images correspondent au même objet réel. Quand l'appariement des segments est fait, il estalors possible grâce à leurs descripteurs géométriques de calculer les coordonnées 3D de l'objet enquestion. La mise en correspondance s'e�ectue par l'intermédiaire d'une méthode de classi�cationhybride qui fusionne les méthodes bayésienne [13] et neuronale [113] : la littérature fait référenceà ce procédé sous la dénomination �combinaison de classi�eur� [65]. Cette association repose surle fait qu'individuellement les deux méthodes sont performantes, et qu'en plus leurs résultats serecouvrent partiellement. La méthode doit indiquer, pour chaque paire de segments envisagée,

83


si les segments sont correctement ou mal appariés. Cette notion duale désigne les �classes�auxquelles chaque paire devra être a�ectée par le classi�eur.

4.2.1 Vecteur de variables d'une paire de segmentsChaque paire de primitives est décrite par un vecteur X de variables qui se compose ini-

tialement de seize di�érences calculées par rapport aux descripteurs de chaque segment (voir letableau 4.1 où les termes �droite� et �gauche� désignent les régions précédemment dé�nies).

Tab. 4.1 � Variables du vecteur X d'une paire de segments.xi Di�érence entre ...x1 ... les ordonnées du centre des segmentsx2 ... les abscisses du centre des segmentsx3 ... les amplitudes du gradient le long des segmentsx4 ... les pentes des segmentsx5 ... les contrastes à gauche des segmentsx6 ... les contrastes à droite des segmentsx7 ... les niveaux de gris moyen à droite des segmentsx8 ... les niveaux de gris moyen à gauche des segmentsx9 ... les variations de niveau de gris (0◦) à droite des segmentsx10 ... les variations de niveau de gris (45◦) à droite des segmentsx11 ... les variations de niveau de gris (90◦) à droite des segmentsx12 ... les variations de niveau de gris (135◦) à droite des segmentsx13 ... les variations de niveau de gris (0◦) à gauche des segmentsx14 ... les variations de niveau de gris (45◦) à gauche des segmentsx15 ... les variations de niveau de gris (90◦) à gauche des segmentsx16 ... les variations de niveau de gris (135◦) à gauche des segments

4.2.2 Classi�eur bayésienIl s'agit d'une méthode de décision statistique. Dans le cas de deux classes d'individus G1 et

G2(ici �bien appariés� et �mal appariés�), la règle de décision optimale de Bayes δ∗ s'écrit :

δ∗ ≡

{ si h(x) > 1 alors on a�ecte x à G1

si h(x) < 1 alors on a�ecte x à G2

(4.5)

avec h(x) =C12 p1 f1(x)C21 p2 f2(x)

Cij est le coût de mauvais classement d'un individu de la classe j dans la classe i, pi est laprobabilité a priori de la classe i, et fi est la fonction de probabilité de la classe i. Loaïza utilisel'hypothèse que les variables étudiées sont des variables aléatoires gaussiennes, et ses travauxprouvent que ce choix est justi�é. Les densités fi(x) sont donc des lois normales Np(µi,Γi) oùµi et Γi sont respectivement le vecteur moyen et la matrice de variance-covariance des classes apriori dans Rp (p est le nombre de variables) :

fi(x) =1

(2π)p/2 |Γi|1/2exp

[−1

2(x− µi)′ Γ−1

i (x− µi)]

(4.6)

84


Par conséquent l'équation de la surface discriminante est :

logf1(x)f2(x)

+ logp1 C12

p2 C21= 0 (4.7)

4.2.3 Classi�eur neuronalLe second classi�eur est un réseau de neurones, plus précisement un perceptron multicouches.

Dans cette méthode, le réseau se compose de trois couches de neurones : une d'entrée avec autantde cellules que de variables (seize initialement), une cachée à sept cellules (nombre déterminéà la suite de tests combinatoires), et une de sortie à deux cellules (autant que de classes). Leréseau reconnaît qu'un nouveau vecteur de données appartient à la classe wm si la mième sortiedu réseau est maximale et les autres sorties minimales. La structure de chaque neurone estidentique : il somme ses entrées, y ajoute une constante αj (le biais) pour former son entréetotale Ij à laquelle est appliquée une fonction d'activation Fj pour générer la sortie Oj = Fj(Ij).Dans le cas présent (si on numérote la couche d'entrée de 1 à p, la couche cachée de 1 à q) alorsla valeur de la sortie k est :

Ok = Fk

αk +q∑

j=1

wjk Fj

(αj +

p∑i=1

wij xi

) (4.8)

Les fonctions d'activation utilisées dans le perceptron sont :� pour les couches d'entrée et de sortie, la fonction identité� pour la couche cachée, la fonction sigmoïde :

f(x) =1

1 + e−x(4.9)

L'architecture d'un tel réseau ressemble à celle décrite dans la �gure 4.9.w ij

w jk

O 1

O 2

x 1

x 2

x 3

x p

f jI j O j

αj

Σ

Couche k de sortie2 neurones

Couche j cachéeq neurones

Couche i d’entréep neurones

Vec

teur

d’e

ntré

e

Vec

teur

de

sort

ie

Neurone

Fig. 4.9 � Architecture du réseau à 3 couches et structure d'un neurone.

En ce qui concerne l'apprentissage, il se fait par rétropropagation du gradient de l'erreur quiminimise le carré de l'erreur totale entre les réponses souhaitées et les sorties du réseau. De plus,on évite un surapprentissage pour éviter que le réseau ne soit plus capable de généraliser.

85


4.2.4 Classi�eur hybrideLe classi�eur �nalement utilisé repose, outre les algorithmes correspondant aux classi�eurs

bayésien et neuronal, sur deux règles :Règle pour inclure un candidat. Cette règle permet de construire une liste des candidats

possibles à apparier et par conséquent de réduire le nombre de couples candidats à classer.Soit un couple candidat Zk décrit par le vecteur Xk de mesures, w1 et w2 les deux classesd'arrivée, PB la probabilité a posteriori par la méthode bayésienne, et PN celle par laméthode neuronale que Z appartienne à la classe wj sachant X. La règle s'écrit :

Ajouter Zk comme élément potentiel de la classe wj(j=1,2)

si PB(wj |Xk) ≥ 0.5 OU PN (wj |Xk) ≥ 0.5(4.10)

Le fait d'imposer que l'une des deux probabilités soit supérieure ou égale à 0.5 impliquequ'au moins un des classi�eurs doit considérer cet appariement comme correct pour inté-grer les deux segments à la liste. D'autre part, le �ou� permet de prendre en compte lacomplémentarité des deux classi�eurs.

Règle de décision. La règle de décision adoptée par Loaïza est une règle de somme :Assigner Zk à wj(j=1,2)

si PB(wj |Xk) + PN (wj |Xk) = maxni=1[PB(wj |Xi) + PN (wj |Xi)]

(4.11)

Où n est le nombre de couples candidats.

4.3 Reconstruction 3D

La technique mise en ÷uvre pour calculer les coordonnées 3D des deux points extrêmes d'unsegment est décrite à l'annexe B.

4.4 Conclusion

Les travaux de Loaïza sont à la base de ceux présentés dans ce manuscrit. A ce titre, l'étude,la compréhension et l'appropriation, aussi bien théorique que pratique, de ces travaux sont uneétape préliminaire avant le passage à la couleur.

L'aspect pratique a la forme de programmes. Ceux d'extraction des segments sont codés enlangage C et utilisent une librairie graphique MIL (de chez Matrox). De part son anciennetéet l'incompatibilité avec la couleur, cette librairie a été abandonnée et un important travail derecodage a été fait pour faire fonctionner de nouveaux programmes. Pour les essais et validationsde ces derniers, nous avons pris le parti d'être indépendant d'une unique source de données,comme on peut l'être avec l'emploi exclusif d'un unique capteur. De fait, nous avons retiré lesmodules de programmation concernant l'acquisition d'images de caméra, la calibration de caméraet la correction de défauts visuels qui sont propres au capteur utilisé. Au contraire, nous avonsopté pour l'emploi de �chiers images en entrée et sortie des nouveaux programmes et avons ajoutédes modules de programmation ��chier image→traitements� et �traitements→�chier image�.

86

4.4 Conclusion

Nos traitements étant indépendants des entrées et sorties, nous gardons la possibilité de modi�erl'interface �entrée→traitement� et �traitement→sortie�. Plus particulièrement, nous avons choisile format d'image �bitmap� a�n de conserver les informations de chaque pixel sans compressiondestructive ; de plus ce format a une structure simple à appréhender et à manipuler.

Les traitements d'appariement de segments ont également été reprogrammés [45] a�n d'uni�eret homogénéiser l'ensemble des classi�eurs, chaque classi�eur étant l'objet de programmes séparésen C et en Matlab.

87

Chapitre 5

Segmentation d'images colorées

Rendre opérationnels les programmes de segmentation d'images monochromatiques est unepremière étape. En plus de se familiariser avec le concept de segmentation, cela nous permetd'envisager une première approche couleur consistant à appliquer ces programmes sur chaqueplan couleur d'une image. Se pose alors la question du choix de l'espace couleur : nous pouvonsutiliser l'espace couleur par défaut des images ou bien chercher un espace plus performant dupoint de vue de notre problématique. L'étude de l'environnement de travail peut apporter unesolution. Si tel n'est pas le cas alors il faut étudier l'emploi de di�érents espaces. Utiliser lesprogrammes existants sur des plans images ne su�t pas : il faut considérer les espaces dans leurglobalité et di�érentes manières de le faire sont envisageables.

5.1 L'environnement de travail

5.1.1 Conditions d'éclairageLa perception des couleurs dépend grandement de l'éclairage. Or, dans un environnement

domestique qui par nature est un lieu d'activités humaines, les conditions d'éclairage sont extrê-mement variées. Celles-ci dépendent de plusieurs facteurs : la nature de l'éclairage, l'intensité etla couleur de la lumière, le moyen de di�usion, la position relative par rapport à la prise d'images.Nature de l'éclairage. Nous pouvons considérer que l'éclairage se décompose en deux grands

ensembles :Eclairage arti�ciel. Diverses technologies nous permettent de créer et contrôler la lu-

mière tels que les lampes à incandescence, à plasma, les néons, le feu (bougie, chemi-née), et cætera.

Eclairage naturel. Ce sont les lumières diurne, et éventuellement nocturne, issues essen-tiellement des astres (le soleil).

Intensité et couleur. Ses paramètres dépendent principalement de la nature de l'éclairage.Pour la lumière diurne ou nocturne, la position des astres dans le ciel (heure de la journée,saison, ...) et le temps (clair à couvert) a�ectent profondément son intensité et sa couleur.Pour la lumière arti�cielle, la couleur dépend de la technologie ou du matériau utilisé tandisque l'intensité dépend des quantités d'énergie (électricité) ou de matières fournies (matièrecombustible) ; ces deux paramètres peuvent donc être contrôlés dans une certaine mesure.

89

Chapitre 5 : Segmentation d'images colorées

Moyen de di�usion. De l'extérieur, la lumière passe à travers di�érentes ouvertures, essen-tiellement en verre transparent mais ce n'est pas systématique : des objets tels les ri-deaux peuvent bloquer ou modi�er la di�usion de la lumière. A l'intérieur, l'environnementlui-même a�ecte la di�usion de la lumière en fonction des couleurs, textures et types dematériau des éléments présents.

Position relative par rapport à la prise d'images. Pour les sources n'a�ectant pas direc-tement la prise de vue, on peut considérer que la lumière s'intègre à la luminosité ambiante.Mais, la source de lumière peut aussi éclairer directement la scène ou le capteur entraînantdes problèmes de re�ets, d'éblouissement, de zones surexposées ou sous-exposées.

Les personnes à qui s'adresse un projet tel que ARPH sont des particuliers vivant dans leurpropre logement : il n'est guère envisageable de modi�er l'environnement pour que les conditionsd'éclairement soient optimales en permanence (ex : rangées de néons, ouvertures extérieurescloses). Il est cependant possible d'adjoindre un capteur adaptatif ayant des systèmes correctifsde gain et de luminosité pour béné�cier des meilleures images possibles.

5.1.2 Description de l'environnementLa description d'un environnement de travail peut être utile car certains critères spéci�ques

peuvent exister en son sein. Dans ce cas, cela oriente les travaux de recherche vers certainessolutions techniques ou scienti�ques. Toutefois dans notre cas, vouloir décrire un environnementdomestique se révèle di�cile. D'un point de vue fonctionnel, les di�érents types de pièces oud'objets sont relativement limités. Cependant, en termes de dimensions, de couleurs, de textures,ou de formes, chaque pièce ou objet devient unique. Les images de la �gure 5.1 montrent unaperçu de pièces et objets de di�érents logis. Indépendamment des conditions d'acquisition deces images, nous voyons la disparité existant entre elles, aussi bien intrinsèquement que les unespar rapport aux autres.Séjours 5.1a et 5.1b - Les meubles de b ont des formes simples et rectilignes au contraire de

a ; les revêtements de sol de a et b tirent respectivement sur le brun et le blanc ; des plantessont présentes en a ; la table en b a une nappe bleue avec des motifs oranges ; les objets etbibelots di�èrent ; et cætera.

Cuisines 5.1c et 5.1d - Le sol et les façades des meubles de c sont rouges alors que tous lesélements de b sont essentiellement blancs ; des tapis sont présents en c ; les motifs de papierpeint sont plus complexes en c qu'en d ; et cætera.

Chambres 5.1e et 5.1f - f révèle un désordre typique des chambres d'enfant, avec divers �pos-ters� sur les murs et des jouets aux couleurs vives ; e est moins encombré et de nombreuxéléments sont bleus ; et cætera.

Divers 5.1g et 5.1h - g montre deux murs voisins aux couleurs di�érentes ainsi que des meublesde dimensions et natures di�érentes ; h montre un piano blanc, élément peu courant dansun logis, et divers bibelots sont posés dessus ; et cætera.

Cette disparité apparaît aussi à travers les histogrammes de chaque plan couleur d'origine(rouge, vert, bleu) qui sont des critères plus objectifs. Comme le montrent les �gures 5.2a à 5.2cla répartition des pixels di�ère d'une image à l'autre.

90


d.

c.

f.

e.

b.

a.

h.

g.

Fig. 5.1 � Exemples de scènes d'intérieurs : a-b) séjours, c-d) cuisines, e-f) chambres, g-h) divers.

91


(a)

(b)

(c)

Fig. 5.2 � Histogrammes des images de la �gure 5.1 sur a) le plan rouge, b) le plan vert, et c) leplan bleu.

92


Finalement, au regard de ce que nous venons de voir, nos connaissances montrent qu'unenvironnement d'intérieur peut se caractériser par une quantité importante d'éléments rectilignes(donnant facilement lieu à des segments) et la large variété de couleurs pouvant être présentes.Ces deux critères sont les points initiaux de notre étude.

5.1.3 Bases d'imagesPour expérimenter correctement les nouvelles méthodes d'extraction et d'appariement des

segments, nous avons procédé à des campagnes d'acquisition d'images dans di�érents logements.Nous les avons complétées avec des bases d'images acquises sur internet.Base n◦1. La première série d'images se compose de trente-neuf photographies numériques (ap-

pareil Kodak DC265) qui ont servi à tester les premiers travaux de segmentation couleur[95]. Elles ont été prises :� à partir de di�érentes positions atteignables par un robot dont le gabarit correspondraità celui du robot Arph ;

� et à une hauteur d'environ quarante centimètres qui correspond à la hauteur où se trouvele système de vision de Arph.

Neuf d'entre elles ont été prises dans le laboratoire et les autres dans un logement parti-culier (maison de plain-pied orientée sud-ouest). Les conditions d'éclairage n'étaient pascontrôlées mais un �ash intégré à l'appareil tenait lieu de dispositif d'éclairage contrôlé.Les images obtenues par ce biais sont de dimensions 1536 × 1024 pixels carrés, en mode�paysage�. Les dimensions importantes de ce format entraînant de longs temps de calcul,nous les avons normalisées vers une taille globale de 512× 512 pixels carré, en respectanttoutefois le rapport hauteur/largeur, ce qui donne des images 768× 512.

Base n◦2. Une seconde campagne a été menée dans un autre logement particulier (maison àun étage). Prises à environ un mètre soixante du sol, ces photographies couvrent un plusgrand nombre d'orientations et de pièces que lors de la première campagne. Ont été prisessoixante-neuf photographies numériques de dimensions 960 × 1280 pixels carrés (mode�portrait�) ou 1280 × 960 pixels carrés (mode �paysage�). Ces images ont également éténormalisées : les dimensions �nales sont 480× 640 ou 640× 480 pixels carrés.

Base n◦3. Internet propose divers sites sur lesquels il est possible de trouver des images d'in-térieur : outre des sites spécialisés proposant des bases d'images, nous trouvons des sitesgénéralistes de vente ou location de logements, et des sites de décoration ou d'architectured'intérieur. La qualité de ces images est variable puisque certains sites ont pour objectifde proposer un simple aperçu tandis que d'autres se doivent de fournir des images dont lesdétails sont reconnaissables. Ainsi, sur deux cent quinze images recueillies, nous en avonsconservé cent quarante exploitables par nos traitements. Les autres ont été mises de côtécar trop petites, ayant un taux de compression trop important entraînant une pixellisa-tion (phénomène de blocs), ou distordues. Parmi les images retenues, cent d'entre elles dedimensions 3072 × 2048 ou 2048 × 3072 pixels carrés ont été normalisées à 512 × 768 ou768 × 512 pixels carrés. Les autres varient de 300 × 300 à 500 × 500 pixels carrés et ontconservé leurs dimensions. Contrairement aux deux bases précédentes, les images de cette

93


base n'ont pas été prises par nos soins et ne présentent pas la même diversité d'éclairageset d'objets.

Nous disposons donc de deux cent quarante-huit images pour expérimenter nos travaux.

5.2 Choix d'espace(s) couleur(s) pour la segmentation

Comme nous l'avons dit à la section 1.5, les travaux basés sur la couleur existent mais nousn'en avons pas trouvé traitant d'environnements domestiques. De même, et bien que ce conceptpuisse être original, il n'existe pas d'espace couleur spéci�quement dédié aux environnementsd'intérieur. Un tel espace pourrait se faire s'il existait des standards chromatiques en termes dedécoration et de mobilier... mais tel n'est pas le cas.

Partant de là, nous ne pouvons qu'explorer les di�érentes possibilités o�ertes par les nombreuxespaces colorimétriques existant et évaluer les conséquences de leur utilisation. Nous avons décidéd'axer notre choix d'un système sur des critères liés aux segments tels que la quantité et la tailledes segments construits. De tels critères découlent du fait que notre but consiste à construire dessegments permettant une reconstruction 3D de l'environnment. Devant la quantité d'espaces ànotre disposition, nous avons décidé de nous limiter à certains d'entre eux en fonction de leurusage dans la littérature et de leurs particularités. Nous avons également essayé de faire en sortede couvrir l'étendue des types d'espaces existant (voir tableau 1.1). Les espaces ainsi retenussont :RVB 24 bpp. C'est l'espace original de nos images. Il est commun, facile à appréhender, et est

un espace de primaires. De plus, son utilisation ne nécessite pas de changement d'espace.xyz. Nous avons retenu cet espace normalisé car le diagramme chromatique de la CIE en est

issu. C'est aussi un espace de primaires qui, si on lui adjoint un axe de luminance à la placede l'axe z, peut être considéré comme un système luminance-chrominance.

L*a*b*. Cet espace se compose de trois axes antagonistes et est considéré comme approchant laperception des couleurs par le système visuel humain. Il est également très répandu dans lalittérature scienti�que. C'est à la fois un système de luminance-chrominance et un systèmeperceptuel.

HSI. Espace intuitif et facilement interprétable, les couleurs s'y traduisent par une teinte, unesaturation et une intensité qui en font un système perceptuel.

I1I2I3. Basé sur l'Analyse en Composantes Principales (ACP), cet espace est également un espaced'opposition. Il appartient aux systèmes de luminance-chrominance et d'axes indépendants.

Les �gures 5.4 à 5.8 montrent pour une même image (�gure 5.3), provenant de la base 2, lesprojections sur chacun des axes (sous-�gures a, b et c) sélectionnés. Les sous-�gures a, b et c sontmonochromatiques puisqu'elles correspondent à un seul axe. Les �gures C.1 à C.4 de l'annexeC montrent des images uniques où la sous-�gure a apparaît en rouge, la b en vert et la c enbleu. Les �chiers images correspondant à ces images sont ceux utilisés dans les traitements. Nosprogrammes de changement d'espaces incluent par conséquence une normalisation (et discréti-sation) des valeurs découlant du changement d'espaces en des valeurs comprises entre 0 et 255(valeurs permises par le format bitmap utilisé).

94

5.2 Choix d'espace(s) couleur(s) pour la segmentation

Fig. 5.3 � Exemple d'une image dans l'espace RVB.

(a) (b)

(c)

Fig. 5.4 � Image 5.3 selon a) l'axe rouge, b) l'axe vert, c) l'axe bleu.

95


(a) (b) (c)

Fig. 5.5 � Image 5.3 selon a) l'axe x, b) l'axe y, c) l'axe z.

(a) (b) (c)

Fig. 5.6 � Image 5.3 selon a) l'axe L* (luminosité), b) l'axe a* (vert vs rouge), c) l'axe b* (bleuvs jaune).

(a) (b) (c)

Fig. 5.7 � Image 5.3 selon a) l'axe H (teinte), b) l'axe S (saturation), c) l'axe I (intensité).

96

5.3 Segmentation d'images couleurs

(a) (b) (c)

Fig. 5.8 � Image 5.3 selon a) l'axe I1 (intensité), b) l'axe I2 (rouge vs bleu), c) l'axe I3 (vert vsrouge-bleu).

Il est possible d'apprécier certains axes en se focalisant sur le meuble en bas à gauche del'image. Ses couleurs sont aisément reconnaissables : les pieds sont rouges, le plan de travail bleuavec une bande jaune (qui est selon le principe d'additivité des couleurs un mélange de rougeet de vert). Tous sont des éléments de grandes dimensions. Leurs couleurs sont saturées (ellesapparaissent �vives�) comme le montre la �gure 5.7b où ces trois éléments sont clairs. Les piedssont mis en évidence sur la �gure 5.4a (axe rouge) ; la bande l'est sur les �gures 5.4a et 5.4b(axes rouge et vert) ; tandis que le plan l'est sur la �gure 5.4c (axe bleu). Les �gures 5.6a (axeL*), 5.7c (axe I) et 5.8a (axe I1) sont similaires puisque leurs axes correspondent à une quantitéde lumière : une image �classique� en niveaux de gris correspond typiquement à l'un de ces axes.Les pieds de la table ressortent également sur la �gure 5.6b (axe a*) qui oppose le rouge au vert,et sur la �gure 5.8b (axe I2) qui oppose le rouge au bleu. Et caætera. Ses observations découlentde ce que sont les axes couleurs : un pixel rouge paraît clair sur un plan rouge. Pour les plansd'opposition, la lecture d'une image est moins aisée : sur le plan a* qui oppose le vert au rouge,un pixel vert doit paraître sombre et un pixel rouge clair.

Cette manière de procéder aboutira à une analyse de ces espaces a posteriori en fonction desrésultats obtenus par le processus de segmentation. Nous allons maintenant présenter, d'une partla manière dont nous intégrons la couleur dans la chaîne de traitement d'images, et d'autre partla manière dont nous évaluons cet apport.


La prise en compte de la couleur dans la chaîne de traitements d'images existante peut êtreabordée, de manière générale, de deux façons di�érentes :Approche marginale. Cette approche considère les espaces couleurs non pas dans leur globa-

lité mais axe par axe. Typiquement, à chaque axe couleur correspond une image mono-chromatique qui est utilisée dans le processus indépendamment des deux autres axes (lesespaces envisagés ont trois composantes). Cette manière de faire a été étudiée initialementde par sa simplicité (aucune modi�cation aux traitements).

Approche vectorielle. Contrairement à la première, cette approche considère les espaces comme

97


formant un tout. Elle nécessite de modi�er les traitements pour qu'ils puissent traiter �si-multanément� les trois composantes d'un espace.

Nous avons ainsi envisagé quatre stratégies pour créer nos ensembles de segments illustrées àla �gure 5.9. Ces méthodes découlent soit de l'approche marginale soit de l'approche vectorielle,d'ailleurs nous nommons deux d'entre elles ainsi.

5.3.1 Segmentation marginalePour notre première stratégie, nous reprenons la méthode faite pour des images en niveaux de

gris. Comme le montre la �gure 5.9, pour chaque image correspondant à un axe couleur (Ci, i =1 à 3), les points de contour des objets de la scène sont extraits. Nous utilisons l'algorithme basésur le gradient de Deriche pour obtenir les composantes cartésiennes du gradient (horizontalementet verticalement). Puis, nous calculons les composantes polaires que sont la norme et l'angle dugradient. Le seuillage par hystérésis fournit une paire d'images binaires desquelles sont extraitsles segments grâce à la segmentation par hystérésis telle que présentée précédemment. Cetteméthode nous fournit donc trois ensembles de segments pour un espace de couleurs donné. Bienque simple à mettre en ÷uvre, cette méthode n'est pas optimale car elle ne permet pas réellementune segmentation couleur sauf à mettre en commun les trois ensembles de segments créés : onpeut alors parler de sursegmentation et nous y reviendrons. Néanmoins, l'approche marginalepermet de comparer l'apport de chaque axe couleur envisagé [95].

5.3.2 Segmentation vectoriellePrécédemment, nous extrayions des segments selon chaque axe couleur. Nous allons mainte-

nant le faire selon chaque espace. Concrètement, nous créons les composantes polaires du gradientgrâce au gradient de Di Zenzo [28]. Ce gradient fournit, à partir des composantes cartésiennesissues de trois axes couleurs (C1, C2 et C3), des composantes polaires globales ou uniques.

Soit δC1δx , δC2

δx , δC3δx , δC1

δy , δC2δy et δC3

δy les composantes horizontales et verticales pour chaqueaxe couleur. Soit c1, c2 et c3 les vecteurs unitaires de chaque axe. Nous calculons u et v selon leséquations 5.1a et 5.1b.

u =δC1

δxc1 +

δC2

δxc2 +

δC3

δxc3 (5.1a)

v =δC1

δyc1 +

δC2

δyc2 +

δC3

δyc3 (5.1b)

u et v permettent d'obtenir des composantes gxx, gyy, gxy selon les équations 5.2a à 5.2c.

gxx = u× u =∣∣∣∣δC1

δx

∣∣∣∣2 +∣∣∣∣δC2

δx

∣∣∣∣2 +∣∣∣∣δC3

δx

∣∣∣∣2 (5.2a)

gyy = v × v =∣∣∣∣δC1

δy

∣∣∣∣2 +∣∣∣∣δC2

δy

∣∣∣∣2 +∣∣∣∣δC3

δy

∣∣∣∣2 (5.2b)

gxy = u× v =δC1

δx

δC1

δy+

δC2

δx

δC2

δy+

δC3

δx

δC3

δy(5.2c)

98


Ci (

i=1,

2,3)

de D

eric

heC

alcu

l du

grad

ient

Cal

cul d

u gr

adie

ntde

DiZ

enzo

− M

agni

tude

du

grad

ient

i−

Mag

nitu

de d

u gr

adie

nt−

Ang

le d

u gr

adie

nt i

− A

ngle

du

grad

ient

mag

nitu

des

du g

radi

ent

His

togr

amm

e i d

es

Max

ima

loca

uxdu

gra

dien

t i−

Seui

l "ba

s" i

− Se

uil "

haut

" i

Seui

llage

par

hys

téré

sis

Imag

es d

es c

onto

urs

bina

ires

"ba

s" &

"ha

ut"

i

par h

ysté

rési

sSe

gmen

tatio

n

His

togr

amm

e de

sm

agni

tude

s du

gra

dien

t

Max

ima

loca

uxdu

gra

dien

t−

Seui

l "ha

ut"

− Se

uil "

bas"

Imag

es d

es c

onto

urs

bina

ires

"ba

s" &

"ha

ut"

Segm

enta

tion

par h

ysté

rési

s

Imag

es d

es c

onto

urs

bina

ires

"ba

s" &

"ha

ut"

Segm

enta

tion

par h

ysté

rési

s

Seui

llage

par

hys

téré

sis

App

roch

e m

argi

nale

App

roch

e ve

ctor

ielle

"Fus

ion"

des

cont

ours

+

+

Ens

embl

e de

seg

men

ts

Surs

egm

enta

tion

Ens

embl

e i d

e se

gmen

tsC

onto

urs

fina

ux i

Ens

embl

e de

seg

men

tsE

nsem

ble

de s

egm

ents

Con

tour

s fi

naux

Con

tour

s fi

naux

Fig. 5.9 � Quatre approches �couleurs� pour la création des segments.

99


Ces composantes permettent de calculer, dans un premier temps, l'angle du gradient :

θ =12

arctan(

2gxy

gxx − gyy

)(5.3)

De fait, il existe deux angles possibles. L'angle choisi sera celui qui maximise la fonction F (θ)de l'équation 5.4.

F (θ) =12{(gxx + gyy) + (gxx − gyy) cos(2θ) + 2gxy sin(2θ)} (5.4)

Dans un second temps, la norme du gradient se calcule en fonction de F (θ) :

MG =√

F (θ) (5.5)Cette méthode correspond mieux à notre objectif a�ché de concevoir des segments à partir

d'une �coopération� de di�érents axes couleurs.

5.3.3 �Fusion� de contoursInspiré des méthodes précédentes, la �fusion� de contours consiste à mettre en commun (ou

fusionner) les images binaires obtenues après seuillage par hystérésis (dans le cadre de l'approchemarginale) a�n de fournir à l'algorithme de segmentation une unique image binaire �haute� etune unique image binaire �basse� (les termes �haute� et �basse� désignant les deux seuils parrapport auxquels s'e�ectuent les binarisations). L'opérateur de �fusion� que nous avons choisiest l'opérateur logique �OU�.

5.3.4 RésultatsLes �gures suivantes (ainsi que celles de l'annexe D) montrent les résultats des di�érents

processus de segmentation appliqués aux images présentées précédemment (�gures 5.3 à 5.8).Approche marginale - exemple complet sur un axe - : La �gure 5.10 montre pour le plan

R les di�érents résultats intermédiaires qui sont le gradient x, le gradient y, l'angle et lanorme du gradient, les extrema locaux, les images seuillées par rapport à un seuil bas (ici2) et un seuil haut (ici 35), et les contours �nalement créés. La dernière étape du processus,à savoir la création des segments, génère un �chier de données contenant les paramètres dechaque segment : la �gure 5.11 montre ces segments.

Approche marginale - autre exemple - : Les contours et segments obtenus di�èrent évi-demment d'un axe à l'autre. Les axes d'intensité (I, L* ou I1) peuvent être considéréscomme axes de référence : la comparaison avec ces axes est essentielle pour évaluer l'emploide la couleur. La �gure 5.12 montre ainsi les contours et segments obtenus selon l'axe I1. Al'annexe D, des images montrent également les contours obtenus pour tous les axes couleursde l'image exemple.

Approche vectorielle - exemple - : La �gure 5.13 montre les segments issus de cette ap-proche sur l'image exemple selon l'espace RVB. A l'annexe D, se trouvent des images dessegments pour les quatre autres espaces.

100


Approche par fusion des contours - exemple - : La �gure 5.14 montre les segments cor-respondant cette approche appliquée à l'image exemple selon l'espace RVB. D'autres résul-tats, pour les quatre autres espaces, sont mis à l'annexe D : nous pouvons déjà constaterl'accroissement signi�catif des segments de petites dimensions par rapport aux précédentesimages résultats.

Comme ces résultats le montrent, pour une seule image, une grande diversité existe entreaxes, espaces, et méthodes de segmentation. Visuellement, il est possible d'estimer l'e�cacitéd'utiliser ou de ne pas utiliser tel ou tel de ces di�érents éléments. Par exemple, il semble que latroisième méthode de segmentation génère une quantité de petits segments plus importante queles autres, ce qui n'est pas le but souhaité. Certains axes (a*, b*, I2, I3 comme le montrent les�gures D.3 et D.5 par exemple) donnent des contours peu évidents à voir de prime abord, descontours facilement attribuables à des éléments secondaires, des détails qui ne donnent pas desegments importants. Il n'est cependant pas envisageable de généraliser de telles appréciations àtoutes les images, ni de tirer des conclusions à partir de critères subjectifs. Il convient d'utiliserdes critères numériques et objectifs sur un grand nombre d'images pour évaluer axes, espaces, etsegmentations.

101


(c)

(a) (b)

(d)

(e) (f)

(g) (h)

Fig. 5.10 � Résultats intermédiaires obtenus pour l'image des rouges 5.4a : a) gradient x, b)gradient y, c) angle du gradient, d) norme du gradient, e) extrema locaux, f) binaire basse, g)binaire haute, h) contour.

102


Fig. 5.11 � Segments obtenus pour l'imagedes rouges 5.4a.

Fig. 5.12 � Segments obtenus pour l'imaged'intensité 5.8a.

Fig. 5.13 � Segments obtenus pour l'imageRVB 5.3 par l'approche vectorielle.

Fig. 5.14 � Segments obtenus pour l'imageRVB 5.3 par l'approche �fusion� decontours.

103


5.4 Outils d'évaluation

Dans ce manuscrit, nous concevons les processus de localisation et de navigation d'un robot àtravers la reconstruction tridimensionnelle de l'espace de travail. Cette reconstruction se fait grâceà un appariement de segments préalablement extraits d'images de l'environnement. La qualitéde ces processus dépend donc des segments correspondant aux contours des objets de la scène : siceux-ci ne sont pas adéquats alors la reconstruction 3D sera au mieux partielle. Nous savons quel'utilisation d'images monochromatiques est fonctionnelle et nous souhaitons tirer des conclusionsquant à la validité d'utiliser la couleur dans de tels processus. De par l'importance que revêtent lessegments dans l'application envisagée, ils nous paraît naturel de porter l'analyse de nos travauxsur des données telles que le nombre de segments créés, leur longueur, leur orientation, ou toutesautres mesures relatives aux segments. De plus, cette analyse doit répondre à deux questions :

� Dans quel espace ou sur quel axe couleur convient-il de projeter les images avant les trai-tements ?

� Quel algorithme permet de mieux tenir compte de l'information colorimétrique dans lestraitements ?

Il faut maintenant choisir les outils pour chi�rer et visualiser les di�érences entre espaces etentre algorithmes. Devons-nous utiliser des outils existants ? En concevoir de nouveaux ? Doivent-ils être complexes ou pouvons-nous nous contenter d'outils simples mais e�caces ? En plus dediverses distances couleurs disponibles dans la littérature, il existe des travaux qui proposent desoutils plus spéci�ques qui s'appliquent le plus souvent à comparer des couleurs entre elles [134][2]. Or nous ne voulons pas faire ce genre de comparaison, ce qui n'est pas possible avec notreapplication, mais plutôt comparer des espaces et des axes couleurs ainsi que des algorithmes desegmentation. Nous avons donc décidé de développer nos propres outils de comparaison autourdu critère fondamental qu'est le �segment� en tant que conséquence concrète de l'emploi de telou tel axe ou espace couleur, et de tel ou tel algorithme. Plus précisément nous voulons des outilsmettant en exergue le postulat suivant :

� Dans une scène d'intérieur, les objets nécessaires à la localisation et à la navigation d'unrobot sont a priori relativement volumineux : mobilier, murs, portes, et cætera. De fait, ces objetsdoivent donner des segments de grande taille, tandis que les autres objets de la scène, qui sontde moindre importance pour l'application envisagée, amènent à des segments de petite taille. Parconséquent, nous estimons qu'il faut privilégier toute méthode de segmentation et tout changementd'espace colorimétrique induisant la construction du plus grand nombre de segments de grandetaille. �

Nous illustrerons les outils �nalement employés avec les résultats obtenus sur l'image qui adéjà servi dans la section précédente.

5.4.1 Quantité, longueur, orientationNous nous intéressons d'abord à un certain nombre de données élémentaires que sont la

quantité, la longueur et l'orientation des segments.La quantité de segments extraits d'une image est un premier élément révélateur d'une bonne

segmentation ou non. Trop bas, il peut être signe de faiblesse d'un algorithme ou d'un

104


défaut de l'image. Dans le dernier cas, soit l'acquisition de l'image est en cause (exemple :photographier un mur remplissant le champ visuel), soit l'axe/espace utilisé est trop pauvreen information. Il faut aussi se mé�er d'un nombre trop élevé qui peut être dû à unemultitude de segments réduits. La tableau 5.1 donne un exemple de quantités de segmentsobtenus : sur cet exemple, la plupart des axes et espaces donnent de 700 à 900 segments saufavec l'approche par �fusion� qui en donne deux à trois fois plus et certains axes/espacescomme HSI (approche vectorielle), I2 et I3 qui en donnent peu.

Tab. 5.1 � Nombre brut de segments obtenus pour l'image 5.3 en fonction des axes/espacescouleurs.

Segmentation marginaleR V B x y z L* a* b* H S I I1 I2 I3752 857 711 659 920 939 917 1118 955 804 942 874 852 484 558Segmentation vectorielle Segmentation par fusion de contoursRVB xyz L*a*b* HSI I1I2I3 RVB xyz L*a*b* HSI I1I2I3687 994 965 470 530 1881 1722 2670 2745 2694

La longueur des segments est un deuxième élément appréciable. S'ils sont grands, on peutpenser qu'ils correspondent à un élément majeur de la scène. Les segments petits sont parcontre moins utiles car souvent associés à des détails de la scène : il conviendra de leséliminer via un critère de taille minimale et/ou un critère d'orientation. Les notions de�grands� et �petits� segments sont relatives : elles dépendent des dimensions de l'imagedont ils sont extraits, de leur orientation (un contour fuyant est souvent plus court qu'unsegment vertical de mur) et de l'objet qu'ils modélisent (un meuble bas peut être utileà détecter mais ses segments seront petits). Pour notre étude nous pouvons quali�er de�petits� des segments ayant une taille inférieure à trente pixels environ et de �grands� ceuxd'une taille dépassant cent pixels environ. Le calcul d'une longueur moyenne de segments(voir tableau ci-dessous) est naturellement tributaire de la quantité et peut donner unefaible valeur si le nombre de segments petits est important. Outre la longueur moyenne dessegments, l'écart-type des longueurs peut aussi être un critère intéressant puisqu'il traduitla dispersion des longueurs autour de leur moyenne. Ainsi un faible écart-type associé à unefaible longueur moyenne peut traduire l'absence récurrente de grands segments. Le tableau5.2 recense ces données pour les segments obtenus sur l'image exemple.

Tab. 5.2 � Longueur moyenne (l) et écart-type des longueurs (σl) des segments obtenus pourl'image 5.3 (en pixels).

Segmentation marginaleR V B x y z L* a* b* H S I I1 I2 I3l : 23 23 23 17 14 15 22 13 15 15 16 23 23 20 15

σl : 32 31 30 21 13 16 29 16 20 20 17 31 31 25 16

Segmentation vectorielle Segmentation par fusion de contoursRVB xyz L*a*b* HSI I1I2I3 RVB xyz L*a*b* HSI I1I2I3l : 25 15 21 23 26 15 13 12 12 12

σl : 34 16 29 28 36 19 16 12 11 12

105


Nous voyons que les axes d'intensité, R, V, B et les espaces RVB, L*a*b*, HSI et I1I2I3 (ap-proche vectorielle) donnent les plus grands segments en moyenne. Les autres axes, l'espacexyz et l'approche par �fusion� donnent de petits segments en moyenne. Nous voyons aussique les écarts-types des longueurs sont assez proches des longueurs moyennes : faibles avecles petites longueurs moyennes et plus élevés avec les plus grandes longueurs moyennes.

L'orientation des segments est importante notamment dans le cas où il faut sélectionner dessegments parmi un grand nombre. Selon les orientations, il peut être en e�et possible deconserver des segments éliminés à cause de leur petite taille. L'essentiel des grands seg-ments étant verticaux et horizontaux, tenir compte de l'orientation permet de conserver lesfuyantes des objets signi�catifs. L'analyse des orientations nous a montré que leur réparti-tion est constante quel que soit l'axe, l'espace ou la méthode de segmentation. Aussi nousne conserverons pas ce critère parmi les outils d'évaluation de la segmentation. Nous gar-dons quand même en mémoire cette donnée qui peut améliorer le processus d'appariementdes segments.

5.4.2 Notation pondérée Np

Soit l'histogramme h1 des longueurs des segments (équation 5.6 et �gure 5.15) avec q laquantité de segments de longueur l donnée.

h1 = {q|q = f(l)} (5.6)

1 15 29 43 57 71 85 99 113

127

141

155

169

183

197

211

225

239

253

267

281

295

309

323

337

351

365

379

393

4070

10

20

30

40

50

60

70

80

Longueur l (en pixels)

Qua

ntité

q

Fig. 5.15 � Histogramme des longueurs des seg-ments obtenus sur l'image 5.4a (axe rouge).

1 15 29 43 57 71 85 99 113

127

141

155

169

183

197

211

225

239

253

267

281

295

309

323

337

351

365

379

393

4070

100

200

300

400

500

600

700

Longueur l (en pixels)

Qua

ntité

pon

déré

e q.

l

Fig. 5.16 � Histogramme pondéré des longueursdes segments de l'image 5.4a (axe rouge).

Cette représentation nous permet de constater une certaine prédominance des segmentscourts. Pour obéir à notre postulat de départ, nous pondérons chaque quantité par la longueurqui lui est associée (équation 5.7 et �gure 5.16).

h2 = {l · q|l · q = l · f(l)} (5.7)

Cette nouvelle représentation ne nous satisfait pas complètement : malgré la pondérationqui met en valeur les segments de grande dimension, les petits segments pèsent toujours. Nous

106


décidons de procéder à un regroupement des segments par pas de taille (�xé volontairement à25 pixels). Au premier pas nous associons un indice i valant 0. Nous incrémentons cet indiceà chaque nouveau pas de taille comme le montre la �gure 5.17 où limin représente la longueurminimale pour le pas i et limax la longueur maximale.

max

l 4min

l 4max

l 3min

l 3max

l 2min

l 2min

l 1max

l 0 max

l 1min

l 0 min

l n max

l n

10 2 3 4 n

Indice i

Taille (en pixels)

0 24 25 49 50 74 75 99 100 124 400 424n=16

Ex : figure 5.3a (R)

Fig. 5.17 � Correspondance entre indice de pas i et longueurs de segments.

Nous obtenons ainsi un pseudo-histogramme avec des quantités q cumulées des segmentsayant une taille comprise entre les tailles limin et limax (équation 5.8 et �gure 5.18), où pasi

désigne le (i + 1)ème pas, et n est l'indice correspondant au dernier pas de taille possible (limitéà la plus grande dimension de segment existant).

h3 =

q

∣∣∣∣∣∣q = f(pasi) =l=limax∑l=limin

f(l) avec pasi = [limin − limax]

(5.8)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 160

50

100

150

200

250

300

350

400

450

500

550

600

Indice de taille i

Qua

ntité

q

Fig. 5.18 � Histogramme par paliers des segments obtenus sur l'image 5.4a (axe rouge).

Ainsi, la pondération s'e�ectue non plus sur la longueur mais sur l'indice i lié au pas (équation

107


5.9 et �gure 5.19).

h4 =

i · q

∣∣∣∣∣∣i · q = i · f(pasi) = i ·l=limax∑l=limin

f(l) avec pasi = [limin − limax]

(5.9)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 160

10

20

30

40

50

60

70

80

90

100

110

120

130

Indice de taille i

Qua

ntité

pon

déré

e q.

i

Fig. 5.19 � Histogramme pondéré par paliers des segments obtenus sur l'image 5.4a (axe rouge).

Cette dernière représentation nous permet de calculer une note globale et absolue (équation5.10) qui tient compte de la pondération apportée par l'indice i, qui néglige un certain nombrede segments de faible taille (ceux associés à l'indice 0), qui relativise l'importance des segmentsde taille intermédiaire, et qui accroît le poids des segments de grande taille. De fait, le pas choisidoit être su�sament grand pour qu'un nombre important de petits segments soient mis de côté,mais pas trop petit pour que le dernier indice ait un poids non négligeable.

Np =i=n∑i=0

i · qi (5.10)

Nous pouvons ainsi comparer les notes obtenues pour di�érents axes/espaces couleurs et al-gorithmes de segmentation au tableau suivant, en considérant les plus hauts résultats, supérieursà 300, comme bons.

Tab. 5.3 � Notation pondérée Np pour l'image 5.3.Segmentation marginaleR V B x y z L* a* b* H S I I1 I2 I3345 409 338 164 128 188 395 159 197 159 225 423 415 168 102

Segmentation vectorielle Segmentation par fusion de contoursRVB xyz L*a*b* HSI I1I2I3 RVB xyz L*a*b* HSI I1I2I3374 193 377 213 294 411 210 277 258 276

108


5.4.3 Notation pondérée comparative Npc

La formule 5.10 nous permet de comparer directement les axes/espaces couleurs entre eux :c'est une chose. Mais notre objectif �nal n'est pas que cette �simple� évaluation : nous voulonségalement émettre un avis quant à l'utilité d'employer l'information couleur en lieu et place del'information d'intensité (niveaux de gris). Par conséquent, il nous faut un outil permettant decomparer directement des segments �couleurs� et des segments �niveaux de gris�.

Reprenons les équations précédemment développées et appliquons les, en sus des segmentsissus des espaces ou axes couleurs en cours d'évaluation, à un ensemble de segments issus d'unesegmentation �classique� d'une image en niveaux de gris qui serviront de référence. Nous obte-nons alors un double histogramme présenté à la �gure 5.20. L'image en niveaux de gris à laquellenous pensons étant celle obtenue en moyennant les trois composantes d'une image de l'espaceRVB 24 bpp (I = R+V +B

3 ) et qui correspond également aux axes I et I1.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 160

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

Axe rouge

Référence

Indice de taille i

Qua

ntité

pon

déré

e q.

i

Fig. 5.20 � Double histogramme pondéré par paliers pour l'image 5.4a.

A partir de là, nous pouvons calculer la di�érence ∆q entre segments �couleurs� et segments�niveaux de gris� d'un même palier et l'équation 5.9 devient l'équation 5.11 avec qcol et qndg lesquantités, respectivement, des segments �couleurs� et des segments �niveaux de gris� (l'équation5.11 est illustrée à la �gure 5.21). L'analyse de la di�érence ∆q est la suivante :

� si ∆q est positive alors les segments �couleurs� sont les plus nombreux pour un intervallede taille donné ;

� si ∆q est nulle alors il existe autant de segments �couleurs� que de segments �niveaux degris� ;

� si ∆q est négative alors les segments �niveaux de gris� sont plus nombreux ;� plus |∆q| est élévée, plus important est l'écart de population entre les deux types desegments.

109


∆h4 =

{i ·∆q

∣∣∣∣∣ i · (qcol − qndg) = i · qcol − i · qndg = i · fcol(pasi)− i · fndg(pasi)

= i ·∑l=limax

l=liminfcol(l)− i ·

∑l=limax

l=liminfndg(l) avec pasi = [limin − limax]

}(5.11)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16-35

-30

-25

-20

-15

-10

-5

0

5

10

15

20

Indice de taille i

Diff

éren

ce p

ondé

rée

de q

uant

ités

Fig. 5.21 � Di�érence des deux histogrammes de la �gure 5.20.

De la même manière que pour la notation pondérée Np (équation 5.10), il est possible decalculer une valeur globale Npc qui peut être analysée en reprenant l'analyse précédente de ∆q,non plus en terme de di�érence entre quantités couleurs et niveaux de gris, mais en terme dedi�érence entre informations couleurs et niveaux de gris. Cette valeur est donnée par l'équation5.12. Concrètement, une di�érence positive signi�era que l'axe ou l'espace couleur considéré estavantageux par rapport à l'axe de référence, et une di�érence négative signi�era le contraire.

Npc =i=n∑i=0

i ·∆qi (5.12)

Le tableau suivant montre les di�érentes valeurs de Npc obtenues pour l'image exemple.Typiquement, la valeur obtenue pour I1 est nulle puisque cet axe correspond à notre référence.Lors du changement d'espace, nous appliquons un changement de dynamique sur l'axe I, quenous ne faisons pas pour I1 : cela modi�e de manière limitée la segmentation d'où une valeur nonnulle sur cet exemple. L*, bien qu'entrant dans la même catégorie d'axe que I1 et I, est construitd'une manière di�érente et sa valeur de Npc peut également ne pas être nulle. Sur cet exemple,les axes d'intensité donnent les meilleurs résultats devant les axes R, V et B et les espaces RVB(approches vectorielle et �fusion�) et L*a*b* (approche vectorielle).

110

5.5 Résultats et discussions

Tab. 5.4 � Notation pondérée comparative Npc pour l'image 5.3.Segmentation marginaleR V B x y z L* a* b* H S I I1 I2 I3-70 -6 -77 -251 -287 -227 -20 -256 -218 -256 -190 8 0 -247 -313

Segmentation vectorielle Segmentation par fusion de contoursRVB xyz L*a*b* HSI I1I2I3 RVB xyz L*a*b* HSI I1I2I3-41 -222 -38 -202 -121 -4 -205 -138 -157 -139

5.4.4 Redondance de Np

Si nous comparons les variations de valeurs entre les tableaux 5.3 et 5.4, nous constatonsqu'elles sont identiques. Les �gures suivantes montrent les valeurs Np et Npc sous forme d'unecourbe reliant chaque axe/espace et segmentation (v : vectorielle, f : fusion de contours). Bien qu'ilsoit inadéquat de relier ainsi les points, ces deux �gures permettent de constater un comportementidentique.

R V B x y z L* a* b* H S I I1 I2 I3R

VB

(v)

xyz

(v)

L*a*

b* (v)

HS

I (v)

I1I2

I3 (v)

RV

B (f)

xyz

(f)

L*a*

b* (f)

HS

I (f)

I1I2

I3 (f)

0

50

100

150

200

250

300

350

400

450

Axe / Espace (Segmentation)

Np

(a)

R V B x y z L* a* b* H S I I1 I2 I3R

VB

(v)

xyz

(v)

L*a*

b* (v)

HS

I (v)

I1I2

I3 (v)

RV

B (f)

xyz

(f)

L*a*

b* (f)

HS

I (f)

I1I2

I3 (f)

-325-300

-275-250-225-200-175

-150-125-100-75

-50-25

025


Npc

(b)

Fig. 5.22 � Variations de a) Np (voir tableau 5.3) et b) Npc (voir tableau 5.4).

De fait, la notation pondérée comparative est une amélioration de la notation pondérée avecun élément permettant la comparaison directe couleur versus niveaux de gris. Il est donc possiblede ne pas utiliser Np pour nos évaluations puisqu'alors elle serait redondante avec Npc.


Les résultats que nous allons maintenant présenter et commenter sont issus de l'emploi desdi�érentes méthodes de segmentation et des di�érents axes/espaces couleurs présentés précé-demment. Ces algorithmes ont été appliqués à l'ensemble des images composant nos bases (voirsection 5.1.3). Nous présentons les résultats sous forme de moyennes des quantités (q), des lon-gueurs (l), des écarts-types des longueurs (σl), et des notations pondérées comparatives (Npc)obtenus pour chaque image.

111


5.5.1 Comparaison axe par axeTypiquement, la segmentation marginale (voir section 5.3.1) nous permet de comparer un

par un les di�érents axes couleurs des espaces que nous avons sélectionnés, comme le montre letableau 5.5.

Tab. 5.5 � Données moyennes pour tous les segments, axe par axe.Axe q l σl Npc

H 655 19 27 -233S 712 22 32 -154I 652 29 43 -1I1 651 29 44 0I2 477 27 39 -155I3 472 22 30 -232L* 658 29 44 -4a* 641 20 28 -193b* 669 22 32 -166R 624 29 44 -24V 645 29 43 -6B 561 30 44 -60x 602 24 35 -164y 587 25 32 -203z 665 23 33 -159

La première donnée dont nous disposons est la quantité moyenne de segments générés. Ellene permet pas vraiment de tirer une conclusion car elle inclut aussi bien le nombre de grandssegments, que nous estimons les plus intéressants et utiles, que de petits segments. Nous pouvonstoutefois noter un comportement équivalent de tous les axes à l'exception des axes I2 et I3 quidonnent en moyenne une quantité moindre de segments. La lecture des longueurs moyennes estplus signi�cative. Les axes H, S, a∗, b∗ et I3 que nous pouvons quali�er de chromatiques etles axes x, y et z qui sont des axes �réduits� donnent des segments globalement petits. Lesautres axes semblent plus performants puisque leurs segments sont plus grands : ce sont les axesd'intensité I, I1 et L∗, les axes primaires R, V et B et l'axe antagoniste I2. La lecture desécarts-types moyens renforce cette analyse dans le sens où elle con�rme l'absence récurente desegments de grande taille sur les axes donnant de petits segments (faibles écarts-types moyenset faibles longueurs moyennes) et leur présence sur les autres (écarts-types plus grands pour deslongueurs moyennes plus grandes). Ces premières données nous permettent de distinguer deuxtypes d'axes couleurs : ceux �indépendants� de l'intensité lumineuse et ceux qui l'incluent. Ene�et, contrairement aux axes précédemment cités, les axes qui semblent porteurs de l'informationutile sont soit des axes d'�intensité lumineuse� (I, L∗ et I1), soit des axes où l'intensité y esttrès importante (R, V et B).

Cependant, bien que nous ayons pu émettre un premier avis négatif sur certains axes couleurs,nous ne pouvons pas encore vraiment évaluer l'apport de chacun. Pour pouvoir le faire, nous allons

112


analyser la moyenne des notations pondérées comparatives (équation 5.12). La lecture de cettedonnée met en évidence la supériorité des trois axes d'�intensité� I, L∗ et I1. Les axes R, V

et B les suivent de peu. Les autres axes couleurs sont par contre nettement en retrait. I1 étantégalement l'axe de référence, la di�érence entre son histogramme de segments et celui de l'axede référence est nulle.

5.5.2 Comparaison des espaces completsCette première analyse, axe couleur par axe couleur, montre que l'information colorimétrique

semble moins importante que l'information d'intensité lumineuse (dans le cadre strict de notreapplication et avec nos propres concepts d'évaluation). Mais qu'en est-il des espaces ? Le tableau5.6 nous fournit les mesures faites pour les cinq espaces couleurs envisagés selon les approchesde segmentation vectorielle (voir section 5.3.2) et par fusion de contours (voir section 5.3.3). Les�gures 5.23 à 5.26 illustrent ces données ainsi que celles correspondant à l'approche marginale(les données relatives aux axes I, I1 et L* sont mises en évidence sur ces �gures). Les di�érentesconclusions que nous porterons seront de deux catégories : conclusion sur les axes et espaces lesuns par rapport aux autres, et conclusion sur les approches de segmentation entre elles.

Tab. 5.6 � Données moyennes pour tous les segments, espace par espace, selon les approchesvectorielle et par fusion des contours.

Segmentation Espace q l σl Npc

HSI 585 26 39 -127I1I2I3 431 38 53 -115

Vectorielle L*a*b* 571 30 45 -76RVB 583 30 45 -31xyz 634 23 34 -160HSI 2067 15 17 -81

Fusion I1I2I3 2038 16 18 -82des L*a*b* 2063 15 17 -84

contours RVB 1586 18 25 24xyz 1387 16 21 -138

D'un point de vue purement quantitatif (voir �gure 5.23), l'approche par fusion fournit lar-gement plus de segments que les deux autres. L'approche vectorielle amène à des quantités desegments similaires à l'approche marginale.

Quand nous regardons la longueur moyenne des segments (�gure 5.24), nous voyons toutde suite que l'approche par fusion présente une longueur moyenne nettement moindre que lesdeux autres : les segments supplémentaires créés par cette méthode semblent correspondre à dessegments petits. L'approche vectorielle appliquée à l'espace I1I2I3 donne la plus grande longueurmoyenne. Appliquée aux espaces RVB et L*a*b*, les résultats sont du niveau des meilleurs axes.

De ces constatations, nous pouvons émettre deux hypothèses comportementales :1. Les segments issus de l'approche vectorielle sont de qualité similaire à ceux issus des di�é-

rents axes porteurs d'information d'intensité (approche marginale). Cela tendrait à montrer

113


H S I I1 I2 I3 L* a* b* R V B x y zH

SI(v

)I1

I2I3

(v)

L*a*

b*(v

)R

VB(v

)xy

z(v)

HS

I(f)

I1I2

I3(f)

L*a*

b*(f)

RV

B(f)

xyz(

f)0

200

400

600

800

1000

1200

1400

1600

1800

2000

2200


Qua

ntité

moy

enne

Fig. 5.23 � Quantité moyenne (q) de segments.


SI(v

)I1

I2I3

(v)

L*a*

b*(v

)R

VB

(v)

xyz(

v)H

SI(f

)I1

I2I3

(f)L*

a*b*

(f)R

VB

(f)xy

z(f)0

358

10131518202325283033353840


Long

ueur

moy

enne

Fig. 5.24 � Longueur moyenne (l) des segments.

114


que le gradient couleur, qui uni�e les gradients de trois axes couleurs, est similaire au gra-dient monochrome.

2. La fusion des contours permet de multiplier la quantité de segments construits mais la plusgrande partie des segments ainsi conçus correspond à des détails de la scène. En e�et, lataille moyenne de ces segments est plutôt faible. Le fait que la fusion s'opère au niveaudes images binaires (assez tardivement dans le processus) n'est pas étranger à ce résultat.De plus, nous pouvons également avancer l'hypothèse que cette fusion a plus d'impact surles images binaires �basses� que sur les �hautes� : un seuillage bas met nettement plus decontours en évidence qu'un seuillage haut.

La lecture des écarts-types (�gure 5.25) con�rme la corrélation entre quantité et longueur.L'écart-type des longueurs de segments de l'approche par fusion est très faible : la variation detaille entre les segments les plus petits et les segments les plus grands est donc limitée. Commeces segments sont petits en moyenne, leur grand nombre laisse entendre que la plupart sont liésaux détails de la scène et sont peu exploitables pour nos besoins. Les résultats pour les approchesmarginale et vectorielle sont encore une fois assez similaires : les axes/espaces donnant de petitssegments présentent également une faible variation de longueur indiquant une faible présence degrands segments.


SI(v

)I1

I2I3

(v)

L*a*

b*(v

)R

VB

(v)

xyz(

v)H

SI(f

)I1

I2I3

(f)L*

a*b*

(f)R

VB

(f)xy

z(f)0

5

10

15

20

25

30

35

40

45

50

55


Eca

rt-ty

pe m

oyen

des

long

ueur

s

Fig. 5.25 � Ecart-type moyen (σl) des longueurs.

Pour compléter notre analyse, nous utilisons la notation pondérée comparative (�gure 5.26)qui nous paraît plus pertinente que les statistiques précédentes.

Le premier point que l'analyse de Npc met en évidence est le suivant : le bon comportement,de manière globale, des axes d'intensité et de l'espace RV B (axes y compris). La segmentationd'images RV B via l'emploi de la fusion des contours donne une note positive. Puis vient lasegmentation selon les axes de luminosité/intensité L∗, I et I1 (I se distingue de I1 par un

115



SI(v

)I1

I2I3

(v)

L*a*

b*(v

)R

VB(v

)xy

z(v)

HS

I(f)

I1I2

I3(f)

L*a*

b*(f)

RV

B(f)

xyz(

f)-250

-225

-200

-175

-150

-125

-100

-75

-50

-25

0

25


Npc

moy

enne

Fig. 5.26 � Notation pondérée comparative moyenne (Npc).

changement de dynamique), puis à nouveau l'espace RV B et les trois axes qui le composent.Nous nous rendons compte que seul l'espace RV B peut rivaliser avec les axes d'intensités sansdoute parce que ses trois axes sont porteurs d'une part d'information lumineuse contrairementaux autres axes chromatiques qui sont conçus de manière à s'en abstraire.

D'autres points sont visibles :� De manière générale, la fusion de contours est meilleure que l'approche vectorielle saufpour l'espace L ∗ a ∗ b∗ où les deux approches s'équilibrent. Nous modérons toutefois cetteanalyse par le fait que l'approche par fusion construit une quantité de segments importantepouvant biaiser Npc.

� Les deux approches �par espaces� sont meilleures que les di�érents axes chromatiques (horsintensités et R, V, B).

� Si les premières données montrent une approche vectorielle au même niveau que l'approchemarginale des axes d'intensité, la dernière donnée relativise cela. Il est possible de dire quele gradient couleur est a�aibli par les gradients initiaux issus des axes chromatiques.

� Les espaces comprenant un axe d'intensité ou de luminosité se comportent mieux que leursdeux axes �chromatiques� mais restent en retrait par rapport à leur axe principal. C'estencore plus vrai pour l'espace HSI qui est de surcroît victime de l'in�uence dégradante deH (axe aux valeurs cycliques).

� La réduction des données rend l'espace xyz peu intéressant : ce sera probablement le caspour tous les espaces découlant d'une telle transformation.

L'aspect comparatif de la notation complète cette analyse en mettant en évidence l'apportde l'information couleur vis vis de de l'information de luminosité. Seul l'espace RV B a une notepositive indiquant un dépassement de l'information de référence. Mais cette note positive resterelativement faible. Ainsi, dans le cadre de notre application consistant à créer des segments, il est

116


possible de faire mieux en couleur qu'en niveaux de gris mais cela reste assez limité. Ces résultatssont des moyennes : certaines combinaisons d'axes/espaces et segmentations sont meilleures surun certain nombre d'images mais cette connaissance se fait a posteriori (après la segmentation).Nous pouvons avancer une explication à ces résultats. Nos approches de segmentation sont baséessur l'emploi d'un gradient. Or un gradient est d'autant plus e�cace si le contraste entre deuxcouleurs est important. Comme, par dé�nition, un axe chromatique met en évidence une certainecatégorie d'information (en fonction de l'axe) au détriment de l'information d'intensité (qui est enquelque sorte l'information principale), il en résulte une diminution générale du contraste seloncet axe. Le gradient mettra donc en évidence moins de contours. Toutefois, il ne faut pas oublier,qu'à intensités égales, deux couleurs ne se distinguent plus sauf sur des plans chromatiques : ilne faut donc pas les négliger.

5.5.3 Une quatrième approche ?Ceci étant dit, il est bien possible d'envisager une manière de faire qui aboutisse à un panel de

segments bien plus �complet� que ceux obtenus précédemment. Ce serait une quatrième approchequi consisterait à mettre en commun les ensembles de segments obtenus individuellement pardi�érents axes couleurs : nous pourrions alors parler de sursegmentation. Nous pouvons mêmeimaginer la mise en commun de segments issus d'un axe d'intensité avec ceux de deux autres axes(par respect du principe d'additivité). Le tableau 5.7 montre les notations pondérées comparativesobtenues sur l'image exemple 5.3 par cette approche, ainsi que celles obtenues par les approchesvectorielle et par fusion (à titre de rappel). Les valeurs sont positives ce qui indique une populationde segments plus intéressante que celle de référence.

Tab. 5.7 � Notations pondérées comparatives pour les segmentations d'espace (appliquées àl'image 5.3).

EspaceSegmentation RVB xyz HSI L*a*b* I1I2I3Vectorielle -41 -222 -202 -38 -121

Fusion de contours -4 -205 -157 -138 -139Sursegmentation 336 65 677 270 392

La �gure 5.27 montre les résultats d'une sursegmentation de notre image exemple pour l'es-pace RVB (voir annexe D pour les résultats sur les quatre autres espaces). Nous devinons quecette méthode serait plus performante que les précédentes, avec un possible changement dans lahiérarchie des espaces.

Cependant, cette méthode a deux défauts : la quantité et la redondance de l'information.L'ensemble �nal des segments est une addition des ensembles issus des trois axes : bien que pluscomplet, il est également beaucoup plus volumineux que les ensembles le composant. De plus, unepartie des segments y est redondante car étant fournie par deux ou trois axes au lieu d'un seul.Les valeurs de Npc incluent ce dernier défaut : les segments redondants y sont comptés autantde fois qu'ils apparaissent. L'emploi de cette méthode devra donc être suivie d'une sélection dessegments.

117


Fig. 5.27 � Segments obtenus pour l'image RVB 5.3 par sursegmentation.

5.6 Sélection de segments

En cas de sursegmentation, nous avons dit qu'il était nécessaire de procéder à un tri des seg-ments car ces segments vont être appariés avec ceux d'une autre image (images stéréoscopiques).Et, dans ce cas, il est inutile de fournir, au processus d'appariement, des segments redondantsprovenant de plusieurs axes. En fait, cette sélection peut être utilisée quelque soit la méthode desegmentation utilisée car, de manière générale, un trop grand nombre de segments augmente lestemps de calcul et la probabilité d'un mauvais appariement (indépendamment de l'axe/espacecouleur de l'image).

Nous envisageons la sélection par rapport à di�érents critères :La longueur des segments. Etant donné notre objectif de favoriser les grands segments, et

vu que nous utilisons déjà ce critère dans nos notations, l'élimination des petits segments(à commencer par ceux de longueur inférieur au pas de 25 pixels choisi) est une premièresélection.

Segments multiples. La présence de segments en double ou triple exemplaire est une possibi-lité de la sursegmentation. Il est facile de ne conserver qu'un seul de ces segments.

Segments superposés. Plus courants que les segments multiples, les segments superposés sontégalement plus di�ciles à trier. Nous incluons plusieurs catégories de segments sous cettedénomination : segments superposés dont l'un est plus court, segment partiellement super-posés, segments parallèles et proches, segments similaires se croisant, et cætera.

L' orientation des segments. Un dernier critère de sélection est l'orientation. En e�et, cer-tains segments comme ceux correspondant aux fuyantes sont généralement plus courts

118

5.6 Sélection de segments

que les segments �horizontaux� et �verticaux� comme le montrent les �gures suivantes.Nous voyons sur la �gure 5.28 que les plus grands segments se trouvent autour de deuxorientations majeures qui sont 0◦ − 180◦ et 90◦.

Fig. 5.28 � Répartition des segments obtenus pour l'image des rouges 5.4a par orientation etlongueur.

Sur les �gures 5.29 et 5.30, nous constatons que la majorité des segments se concentreégalement autour de ces deux orientations.

0 20 40 60 80 100 120 140 160 1800

20

40

60

Orientation (en degrés)

Qua

ntité

Fig. 5.29 � Répartition des segments obte-nus pour l'image des rouges 5.4a par quantitéet orientation.

0 20 40 60 80 100 120 140 160 1800

100

200

300

400

500

600

700

Orientation (en degrés)

Qua

ntité

cum

ulée

Fig. 5.30 � Répartition des segments obte-nus pour l'image des rouges 5.4a par quantitécumulée et orientation.

Cependant, il peut être utile de conserver une partie des segments n'entrant pas dans cettedouble catégorie : par exemple en prélevant un pourcentage de segments pour di�érentesdivisions d'orientations. Ainsi, la �gure 5.31 montre les pourcentages de segments appar-tenant à quelques divisions. On notera un fort pourcentage pour les segments �verticaux�

119


(30%) qui rejoint un de nos postulats de départ sur l'importance des segments verticauxdans une scène d'intérieur.

0°

10°

30°

60°80°

180°

170°

150°

120°100°

7%6%

10%

8% 11%

7% 5%

30%

16%

Fig. 5.31 � Pourcentage de segments par orientation (segments de l'image 5.4a).

5.7 Conclusion

A partir d'un algorithme de segmentation noir et blanc basé sur le gradient d'une image, nousavons pu envisager l'emploi de la couleur de manière marginale, c'est à dire en employant desimages �monochromatiques� de di�érents axes. Ces axes appartiennent à un nombre limité d'es-paces couleurs que nous estimons représentatifs des di�érentes familles d'espaces. Pour évaluercette manière de procéder, nous avons établi des outils de mesure des segments dont une compa-raison avec le résultat d'une segmentation noir et blanc. Dans l'analyse des données ainsi reçues,nous privilégions les segments de �grande� taille qui correspondent aux éléments principaux dela scène observée. Par la suite, nous avons développé deux approches pour faire une segmentationcouleur en utilisant les espaces complets : l'une basée sur un gradient couleur, l'autre sur unefusion des contours axe par axe.

Les résultats obtenus ont montré que les axes correspondant à des axes d'intensité classiquesrestent individuellement plus performants que les autres di�érents axes chromatiques. Du pointde vue des espaces complets, l'utilisation d'un gradient couleur (approche vectorielle) ou de lafusion des contours reste en deçà d'une segmentation marginale des axes d'intensité. Seul l'espaceRVB amène globalement à de bons résultats du fait que chaque axe de cet espace porte unepart non négligeable de l'information des contours. De là, nous avons envisagé une manière deprocéder consistant à fusionner le résultat de plusieurs segmentations marginales ; cette dernièreapproche améliore le résultat global du processus au détriment d'une redondance de l'information.L'ensemble de ces travaux et résultats a fait l'objet de di�érentes publications : [90], [95], et [93].

120

Chapitre 6

Paramètres couleurs

A�n de pouvoir calculer la distance entre un robot et les objets de la scène, nous devonsconnaître les coordonnées tridimensionnelles des repères de l'environnement. Ces repères sontdétectés sous la forme de segments (données bidimensionnelles dans une image). L'informationde profondeur s'obstient en appariant deux segments, issus de deux images stéréoscopiques,correspondant au même repère mais vus de deux points de vue di�érents. L'appariement est rendupossible par la confrontation de caractéristiques de di�érentes natures calculées pour chaquesegment. Les méthodes utilisées pour l'appariement ont été décrites à la section 4.2.

Nous avons vu au chapitre précédent di�érents moyens pour obtenir des segments en utilisantla couleur. Dans ce chapitre, nous nous intéressons à la possibilité de trouver et d'utiliser desparamètres couleurs caractérisant les segments et donc e�caces pour les apparier. Ces paramètresne peuvent pas être issus du segment en lui-même puisque le contour dont il est issu n'a pas decouleur à proprement parler. Cependant, un contour est le plus souvent une di�érence (ou uncontraste) de niveaux de gris ou de couleurs entre deux régions (exception faite des textures).Nous allons donc rechercher ces paramètres de part et d'autre des segments (voir �gure 4.8).

Un premier moyen de caractériser un segment est de mesurer un écart (ou une distance)colorimétrique entre les pixels des deux régions du segment. Nous nous intéressons ainsi à desdistances telles la distance de Kullback-Leibler, l'EMD, la distance du χ2, ou les distances inter-histogrammes. Un autre moyen est de déterminer une couleur représentative pour chaque régionencadrant le segment (à la manière des niveaux de gris moyens utilisés par Loaïza). Pour testerles di�érents outils que nous avons envisagés, nous les avons appliqués sur des images entières(avant de les appliquer éventuellement aux groupes de pixels que sont les régions). Di�érentesdi�cultés sont apparues liées le plus souvent au recensement des couleurs. Ce problème vientde la nature même des images que nous employons. Nos images sont dans un format où chaquepixel est codé sur 24 bits et, de fait, une image �réelle�, avec ses variations de luminosité, sesdégradés de couleur, et ses multiples régions, présente un très large panel de couleurs dont lenombre avoisine souvent le nombre de pixels. D'autre part, pour ne pas avoir un nombre tropimportant de paramètres couleurs avec le risque qu'ils soient peu signi�catifs, nous proposonsde calculer les paramètres couleurs sur l'axe le plus représentatif de l'image. Le choix de cet axedevant être rapide et propre à chaque paire d'images, nous le sélectionnons par rapport à unéchantillon de pixels caractéristique de l'image entière. A�n de simpli�er le contenu des images -sans perte importante d'informations - et d'obtenir les échantillons dont nous avons besoin, nous

121

Chapitre 6 : Paramètres couleurs

avons développé une méthode originale de réduction des couleurs qui nous permet de faire lesdeux à la fois.

Ce chapitre est organisé de la manière suivante. Dans un premier temps, nous présentonsnotre méthode de réduction des couleurs qui nous permet d'obtenir des échantillons d'images.Notons que l'aspect réduction a fait l'objet de plusieurs développements en marge de nos travaux[75] [91] [94], et que les images illustrant cette section sont des images classiques en traitementd'images. Nous montrons ensuite comment nous appuyer sur les échantillons obtenus pour fairele choix de l'axe couleur. Dans une troisième partie nous présentons les nouveaux paramètrescouleurs proposés et nous �nissons par les résultats obtenus dans la phase d'appariement dessegments.

6.1 Réduction du nombre de couleurs par la transformation du

boulanger

L'utilisation d'images numériques colorées est très répandue que ce soit en recherche scienti-�que, dans le monde industriel ou dans le domaine ludique. Beaucoup de ces images sont dé�niesdans l'espace RVB 24 bits par pixel dans lequel la valeur de chaque canal est codée sur un octet (1octet = 8 bits soit 28 = 256 valeurs possibles). Le nombre de couleurs disponibles pour coder unpixel égale donc 224 = 16.777.216. Ce nombre important entraîne que les pixels d'une image sontsouvent uniques. Nous parlons ici d'images réelles de scènes d'extérieur ou d'intérieur, et pourlesquelles le panel des couleurs existantes n'est limité que par la technologie employée. Ainsi,pour une image de taille 256 × 256, il n'est pas surprenant de trouver jusqu'à 65.536 couleursdi�érentes. L'histogramme 3D des couleurs (�gure 6.2) de �mandrill� (�gure 6.1) illustre ce phé-nomène : les couleurs présentes dans l'image forment un �nuage� relativement di�us où chaquepoint correspond à un ou deux pixels.

Fig. 6.1 � Image originale : mandrill (256×256).

Fig. 6.2 � Histogramme 3D de mandrill.

Cet état est dicté par le souci de reproduire le plus �dèlement possible ce que perçoit unsystème visuel humain standard mais entraîne que les �chiers informatiques de stockage d'imagespeuvent être de grande taille, au delà d'une réelle nécessité. Par exemple, si un �chier image

122

6.1 Réduction du nombre de couleurs par la transformation du boulanger

24 bpp 256 × 256 (≡ 192.662 octets) peut être codé en 8 bpp alors on divise par trois sa taille(≡ 66.614 octets). De nombreux traitements d'images peuvent également être rendus impossiblesà cause d'un tel codage, notamment ceux utilisant un histogramme des couleurs : avec un tauxproche d'une couleur par pixel, leur histogramme est quasiment plat et non signi�catif. Parailleurs, des recherches psychovisuelles ont montré que, même si l'÷il humain pouvait percevoirun grand nombre de couleurs di�érentes, le cerveau humain n'interprétait pas systématiquementla di�érence entre deux couleurs similaires : il apparaît donc inutile de disposer d'autant decouleurs pour coder une image. Pour ces diverses raisons, il est utile et intéressant de dé�nir desméthodes permettant de réduire, de manière signi�cative, le nombre des couleurs présentes dansune image tout en conservant une qualité visuelle constante. La �quanti�cation�, ou réduction,des couleurs est la solution à ce problème. Cela consiste à remplacer une couleur de l'imagepar une autre issue d'une palette contenant un nombre limité de couleurs. Cette couleur devraêtre la plus proche possible de celle d'origine au sens d'un critère choisi au préalable [104] [124].Dans la littérature, un certain nombre d'articles traitent de la quanti�cation de couleurs etproposent di�érentes techniques adaptatives pour sélectionner la meilleure palette [16] [36] [63][77]. L'objectif commun à toutes ces méthodes est de préserver l'apparence initiale de l'imagecontrairement à ce que peut faire un logiciel comme �paint� (voir annexe E). Nous proposons dansce manuscrit une méthode d'obtention d'une palette adaptative basée sur la transformation ditedu �boulanger�. Plus particulièrement, c'est la propriété de quasi-mixing de cette transformation,mise en évidence par Smolarz et Cornu [21], qui va nous permettre de concevoir des palettes etsurtout des échantillons caractéristiques de l'image originale.

6.1.1 Présentation de la transformation du boulanger (TB)A l'origine de cette transformation, nous trouvons la théorie des mélanges de systèmes dyna-

miques dé�nis sur des espaces continus. Arnold et Avez dé�nissent très bien ces mélanges. SoitM = [0, 1] × [0, 1] le carré unité, et µ une mesure de M tel que µ(M) = 1. Soit maintenantf : M → M une transformation non destructive de M vers M tel que µ(f(A)) = µ(A), A étantune partie mesurable de M . On peut alors dire que l'ensemble (M,µ, f) forme un système dyna-mique abstrait. L'étude d'un tel système s'intéresse notamment au comportement des points ousous-ensembles de M quand est appliqué fn, n ∈ Z (Z = {...,−2,−1, 0, 1, 2, ...} est l'ensembledes entiers relatifs). Par dé�nition, le système (M,µ, f) est dit �mélangé� si :

limn→+∞

µ(fn(A) ∩B) = µ(A) · µ(B) ∀A,B ∈ M (A, B mesurables) (6.1)

Une dé�nition plus intuitive est donnée par Arnol et Avez ([5], pages 18-19) : � Soit un verre M

rempli à 90% de martini et à 10% de gin A, et soit une cuillère. Mélangeons (f) le cocktail entournant la cuillère dans le verre (chaque tour de cuillère est une itération de f). Physiquement,après un certain nombre n de tours, nous pouvons espérer que la proportion de gin contenu dansun volume quelconque B du verre M soit de l'ordre de 10% (ou que le cocktail soit mélangé)�. Les transformations qui ont cette propriété (nommé �mélange� ou mixing) sont intéressantescar elles permettent de mélanger de façon homogène M et de pouvoir considérer (après mélange)toute partie mesurable de M comme un modèle réduit de M . Par ailleurs, il est concevable de

123


pouvoir séparer les composants par une transformation inverse et de retrouver d'un côté le ginet de l'autre le martini, que ce soit sur M ou B. Dans le cas d'un espace discret �ni (ce que sontles images), les transformations deviennent des permutations périodiques et il n'est alors pluspossible de parler de mélange pour un système dynamique abstrait [8].

Toutefois, le passage du cas continu au cas discret fait apparaître pour certaines transforma-tions, dont la transformation du boulanger, une propriété assez similaire à celle du �mélange�qu'il est possible d'appeler �quasi-mélange� (ou quasi-mixing) [21]. Cette propriété est de bienmélanger, d'un point de vue statistique, les éléments d'un ensemble discret �ni par itération dela transformation. Ainsi, dans le cas d'une image, il est possible de démontrer que les pixels sontstatistiquement convenablement mélangés quand la TB est itérée un nombre su�sant de fois.Une itération de la TB (f) sur un carré unité M (c.-à-d. 0 ≤ x, y ≤ 1) est basée sur deux étapesque nous illustrerons par un cas discret à savoir l'image de mandrill (�gure 6.1).

1. M est contracté par un facteur 2 en y et étendu par un facteur 2 en x. Sur une image, latransformation est a�ne et consiste à entrelacer les lignes deux à deux, et nous obtenonsune image deux fois plus large et moitié moins haute qu'initiallement (�gure 6.3).

Fig. 6.3 � 1ère étape de l'itération initiale (n = 1) de la TB (128× 512).

2. Le rectangle ainsi obtenu est découpé verticalement par le milieu puis la moitié droite estcollé au-dessus de la moitié gauche pour reformer le carré unité. La �gure 6.4 montre lerésultat sur mandrill.

Fig. 6.4 � 2ème étape de l'itération initiale (n = 1) de la TB (256× 256).

Une image numérique étant un ensemble �ni de pixels, la TB correspond à une permutationdes di�érents pixels : le nombre de pixels est donc constant et aucune perte d'information (au

124


niveau des pixels) n'est possible. D'autre part, cette transformation n'agit que dans le domainespatial et peut donc s'appliquer indi�éremment aux images monochromes ou couleurs. La TB estpériodique mais sa période dépend des dimensions de l'image et est le plus souvent irrégulière.Un cas particulier se trouve avec les images carrées de taille 2n × 2n. En e�et, pour ces images,la TB a une période de 4n : au bout de 4n itérations la TB retourne l'image initiale. A 2n

itérations, la TB retourne l'image initiale avec une rotation de 180◦. Le mélange statistiquement�convenable� [20] est obtenu soit à n itérations, soit à 3n itérations (�gure 6.5). L'image ainsimélangée présente les caractéristiques d'une texture microscopique. Pour les images carrées quine sont pas de dimensions 2n × 2n ou les images rectangulaires, nous pouvons approcher la TBpar un sous-échantillonnage homogène des pixels de l'image.

Fig. 6.5 � Mandrill convenablement mélangé (après 3n = 24 itérations) (256 × 256) (fenêtreextraite mise en évidence).

La TB est bijective et donc réversible (la transformation inverse est appelée TB−1). Enpartant du mélange de la �gure 6.5, il est possible de revenir à l'image originale en appliquantn itérations de la TB (3n + n ≡ 4n) ou 3n itérations de la TB−1 (3n − 3n ≡ 0). Une autrepropriété très intéressante de la TB réside dans le fait qu'appliquée à une partie de la texture(image mélangée), elle permet de reconstruire une image �dèle à l'image originale mais de tailleplus réduite. La �gure 6.6 illustre cet aspect pour une reconstruction à partir d'une fenêtre carréede taille 2p × 2p = 128× 128 (p = 7).

Fig. 6.6 � Fenêtre de taille 128 × 128 (p = 7) extraite de la �gure 6.5 et résultat obtenu aprèsp = 7 TB.

Cela montre que la texture obtenue présente une grande homogénéité : les éléments carac-

125


téristiques de l'image sont distribués spatialement de façon régulière et locale. Il faut toutefoispréciser que la reconstruction obtenue avec la TB n'est correcte (en terme de ressemblance avecl'original) que pour des fenêtres résultant de la division de la texture en blocs carrés de taille2p × 2p, p < n, à partir de l'origine de l'image. Dans cet exemple, la reconstruction est obtenueaprès p TB (ou 3p TB−1). Pour une fenêtre carrée de taille 2p × 2p choisie dans une zone quel-conque de la texture, l'image reconstituée présente un aspect structuré mais peu ressemblant àl'original. D'autres propriétés de ces transformations existent que nous ne présenterons pas.

6.1.1.1 Implémentation rapide de la TBNotre méthode de réduction des couleurs s'articule sur deux éléments importants : la trans-

formation du boulanger et la création de la palette �nale des couleurs. La création de la paletteest basée sur le mélange fourni par la TB. Comme cette transformation est itérative (répétitiondu même traitement) et non destructive (pas d'altération du contenu des pixels, pas de perte nid'apport de nouveaux pixels), il est possible d'obtenir directement le mélange à partir de l'imaged'origine via une �lut� (look up table). Cette �lut� est de dimension 2n × 2n × 2 : pour chaquepixel d'une image 2n×2n, elle fournit les coordonnées �mélange� i et j. De plus, une seule �lut�de dimensions données est nécessaire pour traiter toutes les images de mêmes dimensions.

6.1.2 Réduction des couleurs6.1.2.1 Dé�nition des palettes

Comme nous venons de le montrer dans le paragraphe précédent, une fenêtre de taille 2p×2p

conserve les caractéristiques de l'image d'origine tant au niveau des formes que des textures et descouleurs. Partant de cette constatation, nous proposons de considérer une telle fenêtre, non pascomme un ensemble de pixels à restructurer pour obtenir une image reconstruite de plus petitetaille, mais comme un ensemble de pixels dont les couleurs sont représentatives de la gammecomplète des couleurs présentes dans l'image. Ainsi, en fonction des dimensions de la fenêtre,nous avons à disposition une palette de couleurs adaptée à l'image et obtenue de manière simpleet rapide. Une di�culté évidente de notre proposition concerne la manière de choisir la fenêtreà extraire. Avec une image de taille 2n × 2n pixels, il est possible d'obtenir K = 22(n−p) fenêtrescontenant au maximum 22p couleurs comme le montre le tableau 6.1 pour n = 8.

Tab. 6.1 � Valeurs pour une image 256× 256 (28 × 28, n = 8).Nombre de Dimensions Nombre possiblecouleurs nécessaires de fenêtres-palettessouhaitées de la fenêtre K = 22(n−p)

16384 128× 128 44096 64× 64 161024 32× 32 64256 16× 16 25664 8× 8 102416 4× 4 40964 2× 2 16384

126


Dans le cadre de notre protocole expérimental, nous nous limitons à l'obtention de palettesde 256, 64, 16 ou 4 couleurs. Ces palettes correspondent à des fenêtres extraites de taille 24× 24,23 × 23, 22 × 22, 21 × 21 (c.-à-d. p = 4, 3, 2, 1).

6.1.2.2 Variabilité des palettesConsidérer une fenêtre extraite de l'image mélangée comme étant une palette potentielle est

une chose. Considérer toutes les fenêtres extraites équivalentes et o�rant le même potentiel enest une autre. Relevons l'intensité moyenne arrondie de mandrill : 123. Les �gures 6.7 à 6.10montrent la répartition des intensités moyennes (arrondies) des fenêtres issues de mandrill enfonction de leurs dimensions. Pour chacun de ces histogrammes, la valeur d'intensité moyenne del'image d'origine est mise en évidence (comme référence). Nous voyons que l'écart entre la pluspetite intensité moyenne et la plus grande s'accroît en même temps que le nombre de fenêtres.Cet écart est peu élevé pour les fenêtres 16 × 16 (de 115 à 128) et les fenêtres 8 × 8 (de 115à 133). Par contre, pour les fenêtres 4 × 4 et 2 × 2, les intensités moyennes extrêmes sont trèséloignées de la valeur originelle, respectivement de 85 à 153 et de 43 à 185. La grande majoritédes fenêtres ont toutefois une valeur d'intensité moyenne proche de 123, ce qui se traduit sur les�gures par des répartitions en forme de cloche (courbe gaussienne).

115 116 117 118 119 120 121 122 123 124 125 126 127 1280

5

10

15

20

25

30

35

40

45

50

55

Intensité moyenne (arrondie)

No

mb

re d

e fe

nêt

res

16x1

6

Fig. 6.7 � Histogramme des intensitésmoyennes des fenêtres 16× 16 de mandrill.

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

0

10

20

30

40

50

60

70

80

90

100

110

120


No

mb

re d

e fe

nêt

res

8x8


85

88

91

94

97

100

103

106

109

112

115

118

121

124

127

130

133

136

139

142

145

148

151

0102030405060708090

100110120130140150160


No

mb

re d

e fe

nêt

res

4x4


43

48

53

58

63

68

73

78

83

88

93

98

103

108

113

118

123

128

133

138

143

148

153

158

163

168

173

178

183

0

25

50

75

100

125

150

175

200

225

250

275

300

325

350


No

mb

re d

e fe

nêt

res

2x2


127


La variabilité des palettes est donc d'autant plus importante que le nombre de couleurs qu'ellescontiennent est réduit. La lecture de l'écart-type (table 6.2) de chaque répartition con�rme cetteanalyse. Cette variabilité a pour conséquence que toute fenêtre n'est pas potentiellement unepalette en devenir. Ces constatations, présentées sur l'image de mandrill, sont également valablessur d'autres exemples. Dans le cas des fenêtres 16×16, pour lesquelles l'étendue de ces intensitésmoyennes est assez réduite, l'impact du choix d'une fenêtre extrême sera limité quant à la qualitéde reconstitution des couleurs. Mais ce n'est pas le cas pour toutes les fenêtres plus petites parceque certaines présentent des valeurs d'intensité moyenne qui n'ont plus rien de comparable aveccelle de l'image d'origine. Il est alors nécessaire d'avoir une méthode de sélection d'une fenêtrela plus proche possible de la tendance centrale. Nous avons donc envisagé trois approches [91]qui sont présentées dans la suite de ce document.

Tab. 6.2 � Ecarts-types des intensités moyennes des fenêtres de �mandrill�.Nombre de couleurs 256 64 16 4Ecart-type 2, 16 3, 58 10, 95 21, 38

6.1.2.3 Réduction des couleurs de l'image et évaluationAvant de décrire les di�érentes approches envisagées pour sélectionner une fenêtre, nous allons

décrire le processus de quanti�cation retenu (voir �gure 6.11) et la manière d'évaluer la qualitédu résultat de l'opération.

Sélection dela palette

Choix dunombre decouleurs

LUT de la TB

Image initiale

Image mélangée

Réduction des couleurs

Image réduite

Fig. 6.11 � Principe de la réduction adaptative de couleurs par la TB.

Réduction des couleurs. A partir de l'image initiale nous appliquons la �lut� correspondantà la transformation du boulanger pour une dimension donnée : nous obtenons l'image

128


convenablement mélangée. Connaissant le nombre de couleurs souhaitées dans l'image �-nale, nous déterminons la taille de la fenêtre à extraire pour construire la palette. Puisnous choisissons une fenêtre dont les couleurs des pixels constituent la palette �nale. Fi-nalement, nous remplaçons chaque pixel de l'image par une couleur de la palette. Nouscalculons d'abord, pour chaque pixel (i, j) de l'image RVB, la distance euclidienne entresa couleur et les 22p couleurs de la palette (indicées par k) :

∆RV B(i, j, k) =√

(R(i, j)−R(k))2 + (V (i, j)− V (k))2 + (B(i, j)−B(k))2 (6.2)

Puis nous désignons la couleur de la palette ayant donné la distance minimale.Evaluation. Dans les paragraphes suivants nous allons détailler les trois méthodes proposées

pour choisir une fenêtre. Pour chacune d'elles nous exposerons le principe de la méthode,nous présenterons les résultats obtenus à partir de mandrill (�gure 6.1) réduite à 256, 64, 16et 4 couleurs et nous donnerons un tableau présentant des distances entre image d'origineet image réduite qui permettent d'estimer la qualité de la réduction. Ces distances sont dedeux types : 1◦) un vecteur des di�érences moyennes entre les deux images axe couleur paraxe couleur, et 2◦) une distance euclidienne moyenne entre les deux images.Les équations 6.3 et 6.4 montrent ces deux calculs faits selon l'espace RVB qui est l'espaced'origine des images : Xo et Xr indiquent l'axe couleur d'origine et celui réduit, et i et j

sont les coordonnées des pixels (voir également l'annexe F pour des exemples visuels).

deltaRV B =

δR

δV

δB

=

P2n

i=1

P2n

j=1 |Ro(i,j)−Rr(i,j)|2n×2nP2n

i=1

P2n

j=1 |Vo(i,j)−Vr(i,j)|2n×2nP2n

i=1

P2n

j=1 |Bo(i,j)−Br(i,j)|2n×2n

(6.3)

∆RV B =

2n∑i=1

2n∑j=1

√(Ro(i, j)−Rr(i, j))2 + (Vo(i, j)− Vr(i, j))2 + (Bo(i, j)−Br(i, j))2

2n × 2n(6.4)

Cependant, la littérature scienti�que ([138] et [149] par exemple) estime qu'il est plus signi-�catif d'employer une distance couleur basée sur l'espace L*a*b*. Aussi, nous appliqueronségalement les distances précédentes selon l'espace L*C*h qui correspond aux coordonnéescylindriques de L*a*b* (voir équations 6.5 et 6.6).

deltaLCH =

δL

δC

δH

=

P2n

i=1

P2n

j=1 |∆L∗(i,j)|2n×2nP2n

i=1

P2n

j=1 |∆C∗(i,j)|2n×2nP2n

i=1

P2n

j=1 |∆H∗(i,j)|2n×2n

=

P2n

i=1

P2n

j=1 |L∗o(i,j)−L∗r(i,j)|2n×2nP2n

i=1

P2n

j=1 |C∗o (i,j)−C∗

r (i,j)|2n×2nP2n

i=1

P2n

j=1 |2√

C∗o (i,j)C∗

r (i,j) sin (∆hab(i,j)

2)|

2n×2n

(6.5)

129


∆LCH =

∑2n

i=1

∑2n

j=1 ∆E∗ab(i, j)

2n × 2n

avec ∆E∗ab(i, j) =

√(∆L ∗ (i, j))2 + (∆C ∗ (i, j))2 + (∆H ∗ (i, j))2 (6.6)

Pour faire ces calculs, nous utilisons la matrice de conversion de l'espace sRVB (stan-dard RGB) vers l'espace XYZ : cette conversion est dé�nie pour l'illuminant D65 et inclutune correction gamma. La conversion de XYZ à L*a*b* reste conventionnelle mais a*(opposition rouge-vert) et b* (opposition bleu-jaune) sont remplacés respectivement parC∗ =

√a2∗ + b2

∗ (chromaticité) et h = arctan b∗a∗ (teinte).

6.1.2.4 Techniques de choix d'une paletteLa solution idéale pour choisir la fenêtre qui servira de palette serait d'opérer toutes les quan-

ti�cations possibles (une par fenêtre) et d'évaluer l'ensemble des résultats obtenus par rapport àl'image originale. La fenêtre donnant le meilleur résultat serait alors choisie mais a posteriori. Cechoix s'e�ectuerait en recherchant la fenêtre conduisant au delta minimum (de manière simple :min(∆C1 +∆C2 +∆C3) en considérant que les trois composantes couleurs aient le même poids).Par exemple, le tableau 6.3 donne les valeurs de delta obtenues pour les pires et meilleures quan-ti�cations de mandrill avec 16 et 256 couleurs. Les �gures 6.12a à 6.13d montrent les imagescorrespondant à ces valeurs.

Tab. 6.3 � delta extrêmes pour des quanti�cations de �mandrill� à 256 et 16 couleurs.Extrême Coul. δR δV δB ∆RV B δL δC δH ∆LCH

Meilleure 256 4,90 4,89 4,88 9,86 1,47 3,17 3,07 5,2516 12,12 11,15 13,80 24,66 3,97 7,28 6,13 11,87

Pire 256 5,34 5,10 5,37 10,57 1,48 3,44 3,48 5,7616 18,14 23,92 29,17 46,54 6,13 13,09 13,20 21,69

(a) (b) (c) (d)

Fig. 6.12 � Quanti�cations extrêmes de mandrill selon delta RVB : a) meilleure 256 couleurs ;b) pire 256 couleurs ; c) meilleure 16 couleurs ; d) pire 16 couleurs.

130


(a) (b) (c) (d)

Fig. 6.13 � Quanti�cations extrêmes de mandrill selon delta LCH : a) meilleure 256 couleurs ;b) pire 256 couleurs ; c) meilleure 16 couleurs ; d) pire 16 couleurs.

Bien que simple à mettre en ÷uvre, cette solution est mauvaise en terme de temps de calculpuisqu'elle dépend du nombre de fenêtres qui peut être très important comme nous l'avonsmontré au tableau 6.1. Par exemple, toutes les quanti�cations de mandrill à 16 couleurs (4096fenêtres) prennent onze minutes en utilisant un ordinateur doté d'un processeur cadencé à 1,1GHz et une programmation C++.

Une autre solution simple consiste à choisir de manière aléatoire ou arbitraire l'une des K

fenêtres extraites o�rant le nombre souhaité de couleurs. Au regard de ce que nous avons dità propos de la variabilité des fenêtres (section 6.1.2.2), cette solution peut aussi bien amener àun bon qu'à un mauvais résultat si la fenêtre utilisée est éloignée de la tendance centrale (ausens des �gures illustrant la variabilité des fenêtres). Pour des palettes de 256 couleurs (fenêtres16 × 16), la di�érence entre les meilleures et pires quanti�cations reste faible comme nous levoyons sur les �gures 6.12a, 6.12b, 6.13a et 6.13b. Par contre, nous voyons également que pour16 couleurs cette di�érence est importante (�gures 6.12c, 6.12c, 6.13c et 6.13c). L'avantage decette méthode est son temps de calcul très faible : moins de dix millisecondes pour quanti�ermandrill à 16 couleurs avec le matériel décrit précédemment.

Pour éviter une méthode trop longue à mettre en ÷uvre ou une méthode dont le résultat n'estpas garanti, nous avons imaginé trois approches dans le but d'obtenir un résultat constant dansun temps acceptable. Deux d'entre-elles construisent une fenêtre en fonction de celles disponiblesdans l'image mélangée, et l'une sélectionne une de ces fenêtres. Ces approches ont été inspiréespar des outils statistiques usuels comme la moyenne ou la médiane d'une distribution.

6.1.2.4.1 Création d'une fenêtre des couleurs médianes

Cette première approche crée une nouvelle fenêtre à partir des K fenêtres disponibles dansl'image mélangée. Pour une position donnée, repérée par les indices i et j, on cherche parmiles K fenêtres, repérées par l'indice k, la valeur médiane des couleurs occupant cette position.C'est cette couleur qui sera retenue pour être a�ectée à la position (i, j) de la K + 1ème fenêtreainsi construite. Cette technique est répétée pour toutes les positions. On entend par médianedes couleurs à la position (i, j), la valeur médiane des K intensités moyennes des pixels (i, j)

131


classées par ordre croissant. La �gure 6.14 et le tableau 6.4 présentent les résultats obtenus aveccette méthode sur mandrill. On notera que les couleurs de la fenêtre �nale appartiennent toutesà l'image mais pas forcément à la même fenêtre extraite. L'algorithme suivant détaille cetteméthode.

Pour i allant de 1 à 2p

Pour j allant de 1 à 2p

Pour k allant de 1 à K

Ipixel(k) = R(i,j,k)+V (i,j,k)+B(i,j,k)3

FinClasser par ordre croissant les Ipixel(k).ksortie = {k|Ipixel(k) = Iclasse

pixel (K2 )}

Rsortie(i, j) = R(i, j, ksortie)Vsortie(i, j) = V (i, j, ksortie)Bsortie(i, j) = B(i, j, ksortie)

FinFin

(a) (b) (c) (d)

Fig. 6.14 � Approche 1 - Mandrill réduit à : a) 256 couleurs ; b) 64 couleurs ; c) 16 couleurs ; d)4 couleurs.

Tab. 6.4 � Valeurs delta calculées à partir des quatre images de la �gure 6.14.Coul. δR δV δB ∆RV B δL δC δH ∆LCH

256 5,59 5,59 5,91 11,45 1,71 3,47 3,39 5,8364 8,81 8,61 9,71 18,08 2,71 5,45 5,21 9,0216 16,54 17,93 16,34 32,81 5,96 8,40 6,35 13,944 48,81 38,12 25,85 71,88 13,36 17,14 12,57 28,53

6.1.2.4.2 Sélection d'une fenêtre médiane

Dans cette deuxième approche, nous utilisons un critère pour choisir une fenêtre parmi les K

disponibles. Nous avons choisi de calculer l'intensité moyenne de chaque fenêtre, puis de retenirla fenêtre ayant donné la valeur médiane, comme le montre l'algorithme suivant. La �gure 6.15 et

132


le tableau 6.5 présentent les résultats obtenus avec cette méthode sur mandrill. On notera que lescouleurs de la palette �nale appartiennent toutes à une même fenêtre extraite. Il est possible desimpli�er cette méthode en utilisant comme critère non pas l'intensité moyenne des fenêtres maisla somme des niveaux des trois composantes de tous les pixels (la division par trois visible surl'algorithme n'est pas nécessaire). Nous avons également testé l'emploi de l'intensité maximaleou minimale comme critère de choix mais les résultats sont mauvais.

Pour k allant de 1 à K

Ifenetre(k) =P2p

i=1

P2p

j=1R(i,j,k)+V (i,j,k)+B(i,j,k)

3

2p×2p

FinClasser par ordre croissant les Ifenetre(k).ksortie = {k|Ifenetre(k) = Iclasse

fenetre(K2 )}

Fenêtresortie = Fenêtre(ksortie)

(a) (b) (c) (d)



256 5,00 4,90 4,89 9,91 1,45 3,16 3,16 5,2864 8,22 7,76 8,68 16,44 2,41 4,86 4,92 8,3216 14,09 14,23 15,57 29,16 4,38 8,85 7,66 14,164 25,92 39,78 40,23 67,58 12,95 12,48 14,45 26,15

6.1.2.4.3 Création d'une fenêtre moyenne

La troisième approche consiste, comme la première, à créer une nouvelle fenêtre (K +1ème) àpartir des K fenêtres initiales. Mais cette fois la couleur �nale à chaque position (i, j) est la valeurmoyenne des K couleurs occupant la même position (voir algorithme suivant). Les résultats surmandrill de cette technique sont présentés à la �gure 6.16 et au tableau 6.6. A priori, toutes lescouleurs de la palette �nale sont nouvelles. Dans le cas contraire, cela n'est que coïncidence.

133


Pour i allant de 1 à 2p

Pour j allant de 1 à 2p

Rsortie(i, j) =Pk=K

k=1 R(i,j,k)K

Vsortie(i, j) =Pk=K

k=1 V (i,j,k)K

Bsortie(i, j) =Pk=K

k=1 B(i,j,k)K

FinFin

(a) (b) (c) (d)



256 6,21 6,28 6,80 12,83 1,89 4,03 3,63 6,5164 11,40 10,31 11,47 21,86 3,27 6,49 5,11 10,1416 22,60 21,85 27,14 44,90 6,10 13,19 8,27 19,894 34,16 34,76 43,65 70,88 11,36 15,73 12,34 27,26

6.1.3 Discussion et autres résultatsLes résultats précédents, tant visuellement que numériquement, conduisent à la conclusion

que la deuxième approche, consistant en la sélection de la fenêtre médiane parmi les K dispo-nibles, est généralement la meilleure. L'intérêt de cette méthode se con�rme du point de vue destemps de calcul. La quanti�cation de mandrill à 16 couleurs prend soixante-dix millisecondes parla méthode 1 et dix millisecondes par les méthodes 2 et 3 (avec les mêmes conditions matériellesque précédemment). Pour con�rmer cette conclusion, nous présentons un second ensemble derésultats réalisés sur les images de la �gure 6.17. La �gure 6.18 montre ces images quanti�ées à256 couleurs par la seconde approche. En comparant ces images, on constate que la di�érenceentre une image codée sur 28 couleurs ou 224 est peu perceptible à l'÷il. Les résultats obtenusavec les deux autres méthodes ne sont pas présentés car ils sont très proches visuellement deceux obtenus par l'approche 2 dans le cas d'une réduction à 256 couleurs.

134


Fig. 6.17 � Images originales (de haut enbas) : food, �owers, girl, peppers & Lena.

Fig. 6.18 � Images quanti�ées à 256 couleurspar la méthode 2 (de haut en bas) : food,�owers, girl, peppers & Lena.

135


Les tableaux 6.8 et 6.7 montrent les valeurs de distances correspondant à ces images quanti-�ées par les trois approches (en gras, les meilleurs résultats). Nous pouvons voir que la deuxièmeapproche donne le plus souvent les meilleurs résultats que ce soit selon les distances RVB ouL*a*b*. Notons que δL désigne quasi systématiquement l'approche 2 comme la meilleure : cetteapproche préserve mieux la luminosité que les deux autres. Concernant les approches 1 et 3, nousobtenons parfois de meilleurs résultats mais généralement pour 64, 16 et 4 couleurs.

Tab. 6.7 � Valeurs de ∆RV B et ∆LCH calculées sur les images 6.17 réduites par les trois méthodesproposées.

∆RV B − range ≈ [0− 440] ∆LCH − range ≈ [0− 260]Méthode 1 2 3 1 2 3Coul. Food256 23,34 14,89 37,64 10,36 7,61 16,7764 48,18 26,15 68,00 18,59 13,12 29,2916 81,70 45,36 92,25 30,34 22,32 37,044 102,82 84,23 109,59 41,63 41,93 42,30

Coul. Flowers256 10,63 9,67 12,58 5,59 5,04 6,5964 18,81 16,67 24,05 9,16 8,50 11,0716 40,18 32,57 51,38 15,72 16,49 21,794 78,54 62,24 89,44 33,96 29,89 32,58

Coul. Girl256 7,85 7,42 8,36 4,18 4,07 4,5364 12,94 12,71 13,83 6,65 6,63 7,0016 25,98 25,84 24,55 11,93 12,25 10,704 40,01 43,39 41,21 15,67 17,83 16,51

Coul. Peppers256 8,16 7,71 10,17 4,14 3,79 4,9264 17,42 13,11 23,55 8,21 6,33 9,6216 35,05 22,01 47,59 14,28 10,68 18,084 63,88 54,62 73,67 22,17 22,07 34,78

Coul. Lena256 6,03 5,51 6,69 2,93 2,85 3,3164 10,68 9,66 13,42 4,91 4,83 5,7616 23,76 16,52 31,79 9,46 7,33 12,104 43,34 39,43 46,72 18,17 16,48 16,41

Pour illustrer les di�érences entre les trois approches proposées nous présentons les résultatsobtenus pour une réduction à 16 couleurs sur les images food et �owers. Food (�gure 6.19) présenteune grande variété de couleurs occupant de toutes petites surfaces. Flowers (�gure 6.20) présentede plus grandes surfaces de couleurs relativement homogènes. Sur ces �gures, nous constatonsque les approches 1 et 3 sont caractérisées par une perte de luminance moyenne qui donne une�et de �voile� sur l'image. Cet e�et est con�rmé par les valeurs de δL. Les couleurs initialesparaissent moins dégradées par l'approche 3 que par l'approche 1. L'approche 2 est satisfaisantevisuellement car elle préserve un bon contraste entre les couleurs. Finalement, pour les images à256 couleurs obtenues par la deuxième méthode, le rapport entre les valeurs de delta et les valeurs

136


Tab. 6.8 � Valeurs de delta calculées sur les images 6.17 réduites par les trois méthodes proposées(δR, V,B ∈ [0− 255], δL ∈ [0− 100], δC ∈ [0− 134], δH ∈ [0− 252]).

Méthode 1 2 3 1 2 3 1 2 3Food - Taille 256× 256 - Codage initial : 224 couleurs

Coul. δR δV δB

256 10,14 7,04 17,44 12,72 7,31 21,70 12,23 7,46 19,0464 21,50 12,16 34,67 28,27 13,19 32,17 25,08 12,68 39,2716 43,87 20,50 49,66 40,24 22,77 47,79 43,46 24,03 48,304 49,39 51,26 58,22 52,47 32,77 53,00 54,96 39,47 63,57Coul. δL δC δH

256 3,79 2,08 6,11 6,05 4,62 11,08 5,39 4,36 7,6664 9,17 3,65 10,69 9,70 7,89 19,93 9,42 7,31 12,8816 15,24 6,33 16,20 12,47 12,40 24,01 17,86 14,17 14,904 19,69 11,21 18,55 18,67 19,49 25,94 25,14 27,78 18,03

Flowers - Taille 256× 256 - Codage initial : 224 couleursCoul. δR δV δB

256 4,66 4,65 5,33 5,89 4,87 7,16 5,14 4,80 6,2664 8,99 8,48 11,22 9,45 8,46 12,99 10,03 7,71 12,7416 21,98 15,77 27,18 21,17 18,95 29,91 20,11 13,85 23,774 40,04 32,97 57,69 53,51 26,56 43,72 27,62 34,11 41,48Coul. δL δC δH

256 1,62 1,35 1,91 3,45 3,13 4,24 3,13 2,89 3,4264 2,74 2,40 3,73 5,19 5,64 6,54 5,34 4,36 5,7716 7,26 5,49 9,76 8,88 8,99 12,09 7,26 9,56 11,064 17,62 10,26 16,40 12,57 19,71 15,21 21,48 14,65 16,09Girl - Taille 256× 256 - Codage initial : 224 couleurs

Coul. δR δV δB

256 4,11 3,84 4,48 3,71 3,50 3,96 3,64 3,45 4,1464 6,98 6,68 8,26 5,85 5,81 6,19 6,39 6,40 6,5316 17,24 15,75 15,92 11,76 12,59 11,35 10,23 10,65 10,704 22,74 22,14 25,91 21,09 25,22 20,28 20,19 20,49 18,57

Coul. δL δC δH

256 1,23 1,12 1,27 2,39 2,34 2,60 2,53 2,51 2,8264 2,04 1,93 2,17 3,92 3,95 4,31 3,80 3,79 3,8916 4,78 3,82 4,48 7,06 7,47 6,63 5,94 6,54 4,564 6,98 8,16 7,19 9,53 10,72 10,04 5,51 8,04 6,31Peppers - Taille 256× 256 - Codage initial : 224 couleurs

Coul. δR δV δB

256 3,98 3,91 4,96 3,79 3,66 4,51 4,14 3,81 5,6064 8,35 6,36 12,62 7,08 6,33 11,91 9,75 6,58 11,4916 17,76 11,29 19,97 16,39 9,42 32,44 18,15 11,16 22,694 49,52 37,06 31,33 26,69 21,74 55,37 19,98 22,72 26,39Coul. δL δC δH

256 1,12 1,08 1,44 2,64 2,39 3,22 2,25 2,09 2,6064 2,45 1,86 4,27 5,58 3,99 5,87 4,04 3,43 4,6116 6,12 3,17 9,30 8,89 6,85 9,63 6,55 5,52 8,404 12,11 9,35 14,06 12,48 12,39 19,40 9,91 11,66 21,45Lena - Taille 256× 256 - Codage initial : 224 couleurs

Coul. δR δV δB

256 2,92 2,62 3,63 3,05 2,75 3,20 3,13 2,86 3,2864 5,47 4,65 6,23 5,58 4,92 6,49 5,33 5,07 7,8016 11,65 9,12 19,63 14,34 8,18 17,22 11,35 7,95 13,804 23,65 17,81 28,13 20,82 23,84 27,15 20,40 18,73 19,54Coul. δL δC δH

256 0,86 0,74 0,93 1,55 1,51 1,77 1,86 1,90 2,1264 1,65 1,37 1,98 2,51 2,53 2,93 3,04 3,15 3,4516 4,50 2,75 6,08 4,47 3,78 5,09 5,24 4,44 6,694 7,43 6,64 9,74 9,92 10,14 6,63 10,24 7,69 8,39

137


maximales (précisées dans les en-têtes des tableaux 6.8 et 6.7) n'excèdent pas trois pour-cents.

(a) (b) (c)

Fig. 6.19 � Food quanti�ée à 16 couleurs par les trois méthodes.

(a) (b) (c)

Fig. 6.20 � Flowers quanti�ée à 16 couleurs par les trois méthodes.

6.1.4 Comparaison avec d'autres algorithmes de quanti�cationLe travail réalisé autour de cette méthode de réduction des couleurs a été complété par une

comparaison avec quatre autres méthodes de quanti�cation [75]. Trois d'entre elles sont clas-siques : median cut, split & merge, et octree. La dernière est basée sur les matrices de paletteslocales (MPL) [76]. L'étude comparative met en ÷uvre des outils psychovisuels (critères sub-jectifs) et des données numériques (critères objectifs). Pour faire cette étude, Mohamed ChakerLarabi a mis à notre disposition son expérience et les moyens du laboratoire IRCOM-SIC dePoitiers sur la problématique de la quanti�cation.

6.1.4.1 Autres méthodes de quanti�cation6.1.4.1.1 Méthode median cut (coupe médiane) [50]

Cette méthode a été proposé par Heckbert en 1980 lors de son stage d'ingénieur au MIT(Massachusetts Institute of Technology). Cette méthode divise l'espace RVB récursivement en

138


parallélépipèdes rectangles séparés par des plans parallèles aux axes et contenant un nombreégal de couleurs (voir �gure 6.21).

Fig. 6.21 � Découpage du cube RVB par la méthode median cut.

On distingue deux phases :Classi�cation : La boîte initiale est une boîte rectangulaire dans l'espace RVB contenant toutes

les couleurs de l'image initiale. A chaque étape :� Pour chaque boîte, la dimension la plus grande selon R, V ou B est recherchée.� La boîte la plus grande est récupérée et coupée en deux par un plan perpendiculaire àl'axe choisi, au point median (c.-à-d. de façon à ce que chaque nouvelle boîte contiennele même nombre de couleurs).

� On recommence jusqu'à ce que le nombre de boîtes soit égal au nombre de couleurssouhaité pour la nouvelle palette.

A�ectation : A chaque pixel de l'image initiale, on a�ecte la couleur représentant le boîte danslaquelle se trouve la couleur initiale. La couleur représentant cette boîte a pour composantesRVB les moyennes des composantes de toutes les couleurs contenues dans la boîte.

Une variante de cette méthode proposée par Xiang [150] a également été utilisée dans l'étudecomparative.

6.1.4.1.2 Méthode split&merge (division-fusion) [11]

Cette méthode introduite par Brun e�ectue la quanti�cation des couleurs en deux phasesdistinctes. La première consiste en une division uniforme du cube RVB en N classes (N > K)(split). Cette étape doit réduire le nombre de données en gardant les principales propriétés del'image couleur. Ensuite, dans une seconde phase, récursive, on fusionne deux classes présentantune erreur minimale (merge). Cette étape de fusion réduit le graphe appelé Graphe d'Adjacencede Classes (GAC) en partant de la partition initiale en N classes. En reprenant les notations deBrun, la partition initiale de l'espace couleur est P = C0, ..., CN , et la fusion de deux classes Ci

et Cj crée une nouvelle partition P ′ avec une erreur égale à :

E(P ′) = E(P ) +|Ci||Cj ||Ci|+ |Cj |

||µ(Ci)− µ(Cj)||2 (6.7)

E() représente l'erreur que l'on cherche à minimiser et |C| =∑

c∈C f(c) est le cardinal d'uneclasse ou partition avec f(c) le nombre de pixels de couleur c dans la classe. µ(C) =

Pc∈C c·f(c)

|C|est une couleur moyenne.

139


6.1.4.1.3 Méthode octree [43]

Introduite par Gervautz et Purgathofer en 1988, cette méthode est souvent considérée commeune variante de la précédente puisqu'il s'agit d'une méthode de découpage qui partitionne l'espacedes couleurs. Cette partition est structurée selon un arbre dont la racine est l'espace RVB entieret les feuilles sont les couleurs. L'algorithme regroupe certaines branches et feuilles de manièrerécursive jusqu'à avoir un nombre de feuilles correspondant au nombre souhaité de couleurs dansl'image �nale. On distingue trois phases :Classi�cation : La racine de l'arbre est le cube RVB contenant toutes les couleurs de l'image

initiale. A chaque n÷ud correspond un cube divisé en huit petits cubes qui seront ses �ls.Cependant, lorsqu'un cube ne contient pas de couleurs de l'image originale, il est supprimé.De plus, l'algorithme dé�nit une profondeur maximale de l'arbre : log2(K) (K est la taillede la palette �nale) (�gure 6.22).

log2 (K)

feuille supprimée

Fig. 6.22 � Arbre de profondeur log2(K) tel que dé�ni par la méthode octree.

Pour chaque pixel, l'algorithme parcourt l'arbre et trouve le n÷ud correspondant au cube(unique) dans lequel se trouve sa couleur. A chaque n÷ud sont a�ectées les variables sui-vantes :� n1, le nombre de pixels dont la couleur est dans le cube associé à ce n÷ud ;� n2, le nombre de pixels dont la couleur n'est pas représentée dans un n÷ud situé plusbas dans l'arbre (n2 = 0 initialement et change dans la phase de réduction) ;

� Sr, Sv et Sb, les sommes des composantes R, V et B des couleurs qui ne sont pasreprésentées plus bas dans l'arbre.

Réduction : L'algorithme sélectionne la (les) feuille(s) de l'arbre pour laquelle n1 est le pluspetit. Celle(s)-ci est (sont) �éliminée(s)� de l'arbre, et les variables n2, Sr, Sv et Sb sontmodi�ées pour le n÷ud père. Cette phase est réitérée jusqu'à ce que le nombre de feuillesde l'arbre soit égal au nombre de couleurs de la palette �nale.

A�ectation : Chaque couleur de l'image initiale est substituée par la couleur représentative dela feuille de l'arbre où elle se trouve ou en-dessous de laquelle elle se trouvait. La couleurreprésentative d'une feuille a pour composantes Sr

n2, Sv

n2et Sb

n2.

6.1.4.1.4 Méthode de la matrice des palettes locales

Cette méthode s'appuie sur une division originale de l'espace couleur faite par Larabi [77].Cela consiste à transformer l'image originale en un ensemble de fenêtres connexes dont la taille

140


dépend de la variance globale des couleurs présentes dans l'image. Du point de vue de l'espacecouleur, cette transformation mène à un ensemble de sous-espaces représentant les di�érentesfenêtres. Chaque sous-espace couleur est réduit pour donner lieu à une palette locale de couleursles plus représentatives de chaque fenêtre. Ces palettes locales permettent de construire la matricedes palettes locales (MPL) qui représente une version réduite de l'image originale contenant lescouleurs les plus importantes. Le calcul de l'histogramme sur la MPL permet de voir l'in�uence dechaque couleur sur l'image. Par la suite, la division adaptative de l'histogramme en équifenêtrespermet d'extraire le nombre de couleurs désiré.

En plus de cette méthode, l'étude comparative inclut sa version améliorée (grâce à l'ajout decontraintes colorimétriques) [76].

6.1.4.2 Outils d'évaluationL'évaluation de notre méthode par rapport aux autres se fait à travers deux types d'outils :

objectifs et subjectifs. Les outils objectifs sont quasiment incontournables en analyse scienti�que.Mais en traitement d'images, et plus particulièrement en quanti�cation, il est important dejuger le résultat par la perception qu'en ont les hommes, notamment à travers des expériencespsychovisuelles.

6.1.4.2.1 Evaluation objective

Dans la plupart des travaux de quanti�cation, les auteurs utilisent l'Erreur QuadratiqueMoyenne (EQM) [31] pour évaluer de façon quantitative la distorsion apportée à l'image. Cetteerreur est donnée par l'équation suivante où I et IQ sont respectivement l'image originale etl'image quanti�ée, et N le nombre de pixels.

EQM(I, IQ) =1N

∑(x,y)∈I

D2(I(x, y), IQ(x, y)) (6.8)

Notons que cette mesure est assez similaire aux distances que nous utilisons pour évaluer intrin-séquement notre méthode (voir section 6.1.2.3).

Cependant, l'EQM ne fournit pas d'informations sur la qualité visuelle de l'image : il estpossible de trouver deux images où celle donnant l'erreur la plus importante est malgré toutplus acceptable visuellement. Pour cette raison, un descripteur local de qualité est égalementutilisé. En fait, ce descripteur proposé par Charrier [15] uni�e quatre autres descripteurs locauxde qualité [139] qui sont des di�érences locales de luminance DLum, de chrominance DChr,d'émergence DEmg et de corrélation DCor (décrits plus en détail à l'annexe G).

DQ =12

√D2

Lum + D2Chr + D2

Emg + D2Cor (6.9)

Ce descripteur est normalisé : plus il tend vers 1, meilleure est la qualité de la quanti�cation, etvice versa (contrairement à l'EMQ pour laquelle une bonne quanti�cation doit tendre vers 0).

141


6.1.4.2.2 Evaluation subjective

Les évaluations psychovisuelles utilisées sont de type �humain dans la boucle� et utilisentla capacité du système visuel humain (SVH) à évaluer la qualité des images. Les obervateurshumains mis à contribution ont une vision normale des couleurs selon le test ophtalmologiqued'Ishihara [88]. D'autre part, les expériences sont réalisées dans une pièce standardisée répondantaux normes ITU-R 500-10 [56]. Les murs de cette pièce sont gris neutre : la lumière ne s'y ré�échitpas. L'illumination y est arti�cielle, variable et totalement contrôlée. Comme le montre la �gure6.23, les observateurs sont assis à une distance de quatre-vingt dix centimètres de l'écran où sontprojetées les images, a�n de permettre une très bonne perception des détails. L'écran délivresu�sament de lumière pour stimuler correctement le SVH.

90 centimètres

24 bits/min2

Chambre obscure

Fig. 6.23 � Protocole psychovisuel d'évaluation de la qualité.

Le test utilisé pour l'étude est un test d'ordonnancement qui consiste à classer, de la meilleureà la plus mauvaise, une série d'images par rapport à une image originale. Pour les besoins decette étude psycho-physique, un processus a�chant neufs images à l'écran a été retenu. L'imageoriginale est placée au centre et les huit images à étudier sont situées autour d'elle. L'observateurhumain est alors invité à indiquer l'image qu'il voit ou considère la plus éloignée qualitativementde l'image centrale. Cette image ainsi désignée est masquée et la même question est reposéeconcernant les images restantes. Le processus se répète jusqu'à ce que les huit images soientmasquées. Contrairement à d'autres techniques similaires, cette technique présente l'avantagede ne jamais mettre l'observateur devant un choix complexe. En e�et, il doit juste répondre àchaque fois au problème par �voici l'image que je n'apprécie pas dans le lot�.

Les résultats de l'évaluation psychovisuelle seront décrits en termes de MOS (Mean OpinionScore ou score moyen d'opinion).

6.1.4.3 Résultats de l'étude comparativeCette étude de di�érentes méthodes de quanti�cation a porté sur sept images de la base

Kodak qui ont été choisies parce qu'elles fournissent une large gamme de couleurs et de texturespouvant être intéressante dans le cadre d'une telle évaluation. Toutes les images sont codées en24 bits par pixel et quatre niveaux de quanti�cation ont été choisis : 256, 64, 16 et 4 couleurs.

142


Les méthodes utilisées (et leur �label�) sont : median cut (Mcut), median cut de Xiang (Mcutx),split&merge (S&M), octree (Oct), deux variantes de notre méthode à savoir la fenêtre moyenne etla fenêtre médiane (TBmoy, TBmed), et les deux variantes de la méthode MPL (MPL1, MPL2).En�n, l'évaluation subjective a été réalisée sur un panel de vingt observateurs, ayant di�érentsniveaux de connaissance en matière de traitement d'images.

Les �gures 6.24 et 6.25 montrent les graphes de données des méthodes de quanti�cation surtoutes les images respectivement de l'erreur quadratique moyenne EQM et du descripteur dequalité Dq.

0

10

20

30

40

50

60

Mcut Mcutx MPL1 MPL2 Oct S&M TB med TB moy

Algorithme de quantification

EQ

M

256 couleurs 64 couleurs 16 couleurs 4 couleurs

Fig. 6.24 � Graphe de données de l'erreurquadratique moyenne.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Mcut Mcutx MPL1 MPL2 Oct S&M TB med TB moy

Algorithme de quantification

Dq

4 couleurs 16 couleurs 64 couleurs 256 couleurs

Fig. 6.25 � Graphe de données du descrip-teur de qualité.

La lecture de la �gure 6.24 montre que notre méthode basée sur la fenêtre médiane (TPmed)produit dans l'ensemble des distorsions faibles quel que soit le niveau de quanti�cation, compa-rativement aux autres méthodes. Pour des palettes �nales de grande taille (256 et 64 couleurs),elle conduit même à de bons résultats au même titre que les méthodes octree et MPL. Pourdes faibles nombres de couleurs, la méthode split&merge se distingue. La �gure 6.25 montre uncomportement stable de notre méthode TBmed : elle présente les meilleures performances pourdes quanti�cations à 256, 64 et 4 couleurs, devançant les méthodes MPL.

Le tableau 6.9 donne les valeurs moyennes de MOS représentant les opinions des observa-teurs pour le test d'ordonnancement. Le tableau inclut également les valeurs d'écart-type pourchaque algorithme. Plus la valeur de MOS est élevée, plus elle indique une bonne opinion desobservateurs, et toute méthode ayant un score supérieur à 4 est condidérée comme o�rant unetrès bonne qualité de résultats.

Tab. 6.9 � MOS et écart-type moyen de toutes les évaluations menées.Algorithme MOS Ecart-typeMcut 3,04 2,07Mcutx 3,81 2,16MPL1 5,54 1,99MPL2 5,61 1,86Oct 5,10 1,94S&M 5,28 2,33TBmed 4,60 2,06TBmoy 3,01 2,02

143


Ce tableau indique que notre méthode TBmed est en retrait par rapport aux méthodes MPL,octree et split&merge. Elle entre néanmoins dans la catégorie des bonnes quanti�cations grâce àun score supérieur à 4.

Notons que la comparaison entre les deux versions de notre méthode utilisées pour cette étudecon�rme les résultats intrinsèques à savoir que l'approche par fenêtre médiane est globalementplus performante (par rapport à la variante fenêtre moyenne).

6.1.5 ConclusionLe travail réalisé autour de la méthode de réduction des couleurs à partir de la transformation

du boulanger est important. Trois variantes ont été envisagées, des distances colorimétriques RVBet LCH calculées, une étude comparative avec d'autres méthodes de quanti�cation menée, et despublications scienti�ques ont été faites autour de ce sujet [75] [91] [94].

Notre technique, et plus particulièrement celle sélectionnant une fenêtre médiane, permet deréduire, e�cacement et de manière adpatative, le nombre de couleurs présentes dans une image.Elle est en outre simple à mettre en ÷uvre. Elle se révèle également meilleure que d'autres ap-proches standards d'un point de vue structurel et colorimétrique, et sa robustesse a été démontréegrâce à une campagne d'évaluation psychovisuelle. D'autres développements sont possibles no-tamment en vidéo.

Appliqué à nos travaux sur la navigation, nous l'utilisons à deux reprises. Pour la localisation��ne�, outre la réduction de données qui nous a été utile dans une phase exploratoire, elle nouspermet de déterminer un axe couleur sur lequel calculer les paramètres couleurs envisagés. Pourfaire cela, l'idée est la même que celle permettant de faire d'une fenêtre de l'image mélangée unepalette de couleurs représentative du reste de l'image : nous considérons la fenêtre médiane del'image mélangée comme un ensemble de pixels représentatif des couleurs présentes dans l'imageet pouvons déterminer, par un critère approprié, l'axe selon lequel il est plus pertinent de calculerles paramètres couleurs. L'autre utilisation de notre technique concerne la localisation �globale�,où elle sert à construire un �invariant� couleur utilisé dans une procédure d'indexation d'images.

6.2 Paramètres couleurs des segments

Nous souhaitons apporter aux segments des descripteurs basés sur la couleur en plus, ou à laplace, de ceux déjà utilisés (voir section 4.1.4). Les descripteurs dont nous disposons sont baséssur la géométrie du segment, la luminance du segment et des régions encadrant le segment, latexture dans ces mêmes régions, et le voisinage avec les autres segments ; et certains d'entre-euxsont spéci�ques à une image d'intensité. Comme un segment (et le contour dont il est issu) n'apas de couleur à proprement parler, nous devons chercher à calculer les descripteurs couleursdans les deux régions l'encadrant (voir �gure 4.8). Ces régions sont peu prodondes puisqu'elless'étendent de deux à six pixels perpendiculairement au segment.

Mais la première question que nous nous posons, avant même de savoir quels paramètrescalculer, concerne le choix de l'axe ou de l'espace couleur sur lequel opérer. Une première solu-tion serait de conserver celui utilisé pour la segmentation en supposant que ce qui a permis laconstruction d'un segment (le plus souvent un fort contraste local) est adéquat pour caractériser

144


les couleurs des pixels voisins du segment. Le problème posé par cette supposition vient de laprofondeur utilisée pour dé�nir les régions voisines d'un segment. Un exemple simple permet des'en rendre compte : la �gure suivante nous montre que les pixels permettant la création d'uncontour ne sont pas ceux dé�nissant les régions de part et d'autre du segment résultat.

� � � � ��

� � � � ��

� � � � ��

� � � � ��

10 pixels 10 pixels 9 pixels

Contraste Gradient Contour / Segment & Régions

9 pixels

Pixels à l’origine du contraste2 p.

2 p.2 p.6 p. 6 p.

RdRg

Fig. 6.26 � Pixels de contour et pixels de voisinage.

Par conséquent il n'est pas évident d'a�rmer qu'un axe/espace couleur capable de mettreen évidence un contour permette également de mettre en évidence le contenu colorimétrique desrégions autour d'un segment. Nous préférons donc procéder à une recherche d'axe/espace couleurpour le calcul de paramètres couleurs indépendamment de celui utilisé pour la segmentation.

D'autre part, pour ne pas avoir un nombre trop important de paramètres couleurs, avec lerisque qu'ils soient peu signi�catifs, nous proposons de calculer les paramètres couleurs selon unaxe couleur unique le plus représentatif du point de vue des variations de couleurs au sein del'image à traiter.

Ces di�érentes considérations nous amènent à proposer la solution suivante illustrée par la�gure 6.27. Soit I1 et I2 deux images stéréoscopiques. Grâce à la transformation du boulangerprésentée à la section 6.1, nous extrayons une fenêtre de pixels représentatifs de I1 d'un pointde vue colorimétrique (taille envisagée de la fenêtre : 16× 16). Nous projetons cette fenêtre surdi�érents axes couleurs. Nous calculons un même critère sur toutes les projections. Ce critèredésigne une des fenêtres et nous relevons l'axe couleur ayant donné cette fenêtre. Nous projetonsensuite I1 et I2 selon l'axe choisi. Le calcul des paramètres se faisant au fur et à mesure de laconstruction des segments, nous ajoutons à ce double processus le calcul de paramètres couleursavec pour entrées spéci�ques les projections de I1 et I2.

Nous cherchons à choisir un axe couleur par rapport aux variations de couleurs au sein del'image car nous pensons que la présence de couleurs très di�érentes peut caractériser (ou dis-tinguer) les groupes de pixels d'une même région par rapport aux autres (au sens des régions depart et d'autre des segments). Nous prenons donc comme critère de choix l'écart-type des pixelset le calculons sur les pixels d'une fenêtre issue de la tranformation du boulanger car nous savonsqu'une telle fenêtre est caractéristique du contenu colorimétrique de l'image originale. En faisantainsi, nous évitons de devoir calculer notre critère sur l'image en entier.

145


du boulanger de I 1

par la transformationSous−échantillonnage

Projection de Esur différentsaxes couleurs

Choix d’unaxe couleur

I1 et I 2 surProjection de

l’axe choisi

Projection de I 1 Projection de I 2

Segments de I 1 Segments de I 2

I1 et I 2

calcul des paramètres surExtraction des segments et

projections de I 1 et I 2

couleurs sur lesCalcul des paramètres

I1 I2

E Fenêtre médiane

Axe couleur

Appariement des segments

Fig. 6.27 � Principe adopté pour l'intégration du calcul des paramètres couleurs au processusde segmentation.

Les axes couleurs que nous envisageons sont au nombre de vingt-huit et sont tirés de di�érentsespaces dont la description est faite soit au chapitre 1 soit à l'annexe A. Le choix de travailler avecce grand nombre d'axes découle du fait que le processus doit désigner l'axe le plus représentatif.En proposant au processus plusieurs choix possibles, nous augmentons la possibilité de désignerun axe signi�catif (ce qui ne serait pas le cas si seulement quelques axes étaient envisagés). Cettemanière de procéder peut être remise en question si l'expérimentation montre une convergencedes réponses sur un ou quelques axes. De même, si des axes sont systématiquement ignorés, ilsera possible de les retirer du processus. Les axes retenus sont :

� R, V, B (espace RVB par défaut),� Rn, Vn, Bn (espace RVB réduit),� I1, I2, I3 (espace I1I2I3),� L*, a*, b* (espace L*a*b*),

146


� u*, v* (espace L*u*v* où L* est calculé de la même manière qu'en L*a*b*),� S (espace HSI, H n'est pas retenu à cause de sa nature cyclique qui peut donner unevariation de valeurs pour deux couleurs proches, I est similaire à I1),

� Y, T1, T2 (espace YT1T2),� U, V, I, Q (espaces YUV et YIQ où Y est calculé de la même manière qu'en YT1T2),� X, Y, Z (espace XYZ),� x, y, z (espace XYZ réduit).L'algorithme suivant montre comment est �nalement choisi l'axe : c'est celui ayant donné la

fenêtre pour laquelle l'écart-type est le plus grand.

Pour k allant de 1 à 28

moyenne(k) =P16

i=1

P16j=1 fenetrek(i,j)

16×16

σ(k) =

√P16i=1

P16j=1(fenetrek(i,j)−moyenne(k))2

16×16

Finkchoisi = {k|σ(k) = max(σ(1), ..., σ(28))}

Les �gures suivantes illustrent le processus. Soit une paire stéréoscopique d'images RVB à la�gure 6.28. La �gure 6.29 montre l'échantillon extrait de l'image gauche et ses projections selonles di�érents axes couleurs retenus. Le tableau 6.10 recense les valeurs d'écart-type, par ordredécroissant, pour chaque projection de l'échantillon : la plus grande valeur est obtenue pour l'axeB (bleu). C'est sur cet axe que les paramètres seront calculés indépendamment de l'espace ouaxe couleur utilisé pour segmenter l'image.

(a) (b)

Fig. 6.28 � Exemple de paire stéréoscopique d'images RVB : a) gauche et b) droite.

Une fois que nous avons décidé de travailler sur des axes couleurs et non pas sur des espaces,et que nous avons mis au point la manière de faire le choix d'un axe, nous nous interessons aux

147


VRVB IYIQ I 2

Vn Bn YXYZ

YYT1T2I 3 I 1 Rn T1

VYUV T2

RVB B Z S u*

v* a* z R

b* Q

xX L* y U

Fig. 6.29 � Echantillon extrait de l'image gauche de la paire et ses projections, par ordre dé-croissant d'écart-type.

Tab. 6.10 � Ecart-type des projections.B Z S u* VRV B IY IQ I2

71,42 70,54 66,87 60,99 60,69 57,77 56,80v* a* z Vn Bn YXY Z R

56,06 55,24 54,41 52,50 52,06 51,94 51,93YY T1T2 I3 I1 Rn T1 b* Q51,48 51,47 50,88 49,52 49,52 49,35 48,36X x L* VY UV y U T2

47,09 39,05 36,81 30,15 24,40 24,24 21,63

paramètres à calculer. Nous envisageons deux types possibles de descripteurs des segments :� une ou plusieurs couleurs caractéristiques de chaque région,� une distance intercolorimétrique entre couleurs des deux régions.

Ces deux types de paramètre excluent des distributions ou histogrammes qui sont habituellementemployés et qui nécessitent de nombreuses valeurs pour être dé�nis.

6.2.1 Paramètre : couleur caractéristique homogèneLe fait de désigner une couleur est similaire au calcul de l'intensité moyenne (descripteur

de luminance) puisque, dans les deux cas, on caractérise un ensemble de pixels par une valeurunique. Cependant calculer une couleur moyenne nous paraît peu intéressant car cela revient àcalculer une intensité moyenne sur un ou plusieurs axes couleurs. Une première solution consiste àdésigner la couleur la plus présente dans la région considérée. Cette notion nous semble cependantdélicate à utiliser notamment si les régions voisines du segment sont texturées. En ce cas, lacouleur émergente ne serait pas vraiment représentative. Comme des paramètres de texture sont

148


déjà disponibles, il nous faut plutôt un outil capable de désigner une couleur homogène dans lesens où le contour à l'origine d'un segment sépare le plus souvent deux régions homogènes. Dansla mouvance des matrices de cooccurrence [48] et des longueurs de plage [40], nous trouvons unoutil qui correspond à ce que nous cherchons et qui sont les matrices de dépendance de niveauxde gris voisins (NGLDM) introduites par Sun et Wee [132]. Cette matrice permet en e�et demesurer des homogénéités locales [129] c.-à-d. des pixels homogènes avec leur voisinage. Cetoutil est originalement prévu pour des images en niveaux de gris : nous pouvons donc l'employerdirectement sur des images projetées selon un axe couleur déterminé.

La NGLDM se dé�nit de la manière suivante. Soit :� G(l, c) est une variable aléatoire associée au niveau de gris du pixel de coordonnées (l, c)(G est dé�nie sur l'ensemble E = {1, 2, ..., 256}) ;

� d est un paramètre �xant la taille du voisinage autour d'un pixel ;� ρ((l1, c1), (l2, c2)) = max (|l1 − l2|, |c1 − c2|) est la distance entre deux pixels de coordonnéesrespectives (l1, c1) et (l2, c2) ;

� Vd = (2d + 1)2 − 1 est le nombre de voisins d'un pixel, situés à une distance maximale d

de ce pixel ;� a est un paramètre �xant le degré de proximité entre les valeurs des niveaux de gris depixels voisins ;

� et S est une variable aléatoire associée au nombre de voisins d'un pixel qui ont un niveaude gris proche de ce pixel relativement au paramètre a.

Alors la matrice Q de dépendance de niveaux de gris de pixels voisins (NGLDM) est :

Qd,a = card

(l, c) |

G(l, c) = g

etcard[ (i, j) | ρ((l, c), (i, j)) ≤ d et |G(l, c)−G(i, j)| ≤ a] = s

(6.10)

Quand la matrice Q est dé�nie, les probabilités suivantes sont calculées :

Pd,a(G = g, S = s) =Qd,a(g, s)

Kavec K =

256∑g=1

Vd∑s=0

Qd,a(g, s) (6.11)

Pd,a(S = s|G = g) =Pd,a(G = g, S = s)∑Vd

u=0 Pd,a(G = g, S = s)(6.12)

Pd,a(S = s|G = g) est la distribution, pour un pixel de niveau de gris g, de ses voisins ayant unniveau de gris compris entre g−a et g+a. La valeur de a permet d'ajuster le degré de ressemblancelocale entre pixels que l'on souhaite détecter. Notons que K représente le nombre de pixels surlesquels est conçue la matrice et que l'ensemble {∑Vd

s=0 Qd,a(1, s), ...,∑Vd

s=0 Qd,a(256, s)} formel'histogramme des niveaux de gris des pixels considérés.

L'homogénéité locale peut �nalement se dé�nir comme suit. Soit h un nombre de pixels voisins(h < Vd), la probabilité qu'un pixel de niveau de gris g soit entouré d'au moins Vd − h pixelsd'un niveau de gris proche de g, relativement au paramètre a, est :

Homd,a = Pd,a(Vd − h ≤ S ≤ Vd|G = g) (6.13)

149


Les pixels isolés contribuent aux faibles valeurs de Homd,a(g, h) ainsi que ceux ayant un niveaude gris de faible probabilité a priori. Trouver le niveau de gris le plus homogène d'une régionconsiste donc à sélectionner le niveau de gris qui maximise les valeurs de Homd,a(g, h). Il estcourant de prendre les deux niveaux qui maximisent les valeurs d'homogénéité.

Déterminer deux homogénéités par région d'un segment est ce que nous nous proposons defaire avec les paramètres suivants : la proximité des niveaux de couleur voisins est a = 2, ladistance des pixels voisins au pixel courant est d = 1 (voisinage Vd = 8 pixels), la proportionde pixels voisins nécessaire pour dire qu'un pixel est de niveau homogène est 75% (h = 2).Au cas où il n'existe pas de niveau de couleur homogène alors la valeur −1 est a�ectée auparamètre : cette valeur désigne l'absence d'homogénéité. La �gure 6.30 illustre l'utilisation del'homogénéité. Elle nous montre les projections des images stéréoscopiques exemples sur l'axe Bsélectionné précédemment. Sur ces deux images, les segments obtenus par sursegmentation selonl'espace RVB sont mis en évidence en bleu. Les pixels apparaissant respectivement en rouge etvert correspondent aux niveaux de couleur B homogènes des régions droites et gauches. Nousvoyons que les pixels de voisinage ne sont pas tous des pixels homogènes. De même, plusieurssegments n'ont pas de pixels homogènes ou très peu. En jaune se trouvent des pixels homogènesà la fois pour la région droite d'un segment et pour la région gauche d'un autre segment.

(a) (b)

Fig. 6.30 � Mise en évidence des niveaux de couleur B homogènes des segments.

6.2.1.1 Sélection des segments par l'homogénéitéLe fait que certains segments n'aient pas de niveaux de couleur homogènes peut servir de

manière e�cace à sélectionner les segments à apparier en plus des critères vus à la section 5.6.Par exemple, les �gures 6.31 et 6.32 montrent une sélection des segments selon qu'ils aient aumoins un niveau de couleur homogène sur les quatre possibles (sous-�gure b) ou au moins unniveau de couleur homogène à droite et à gauche (sous-�gure c). Avec cette sélection nous passons

150


de 566 à 233 segments pour l'image gauche et de 513 à 190 pour l'image droite soit environ 40%de segments en moins. Au regard des images, la seule sélection des segments ayant au moinsun niveau de couleur homogène est intéressante : la plupart des segments sont conservés, cequi nous pousse à dire que le paramètre d'homogénéité est su�samment sélectif pour faire untri avantageux parmi les segments et su�samment général pour caractériser la majorité dessegments.

(a) (b) (c)

Fig. 6.31 � Sélection des segments �gauches� : a) segments initiaux, b) segments ayant au moinsune homogénéité, c) segments ayant au moins une homogénéité à droite et une homogénéité àgauche.

(a) (b) (c)

Fig. 6.32 � Sélection des segments �droits� : a) segments initiaux, b) segments ayant au moinsune homogénéité, c) segments ayant au moins une homogénéité à droite et une homogénéité àgauche.

6.2.1.2 Exemple d'�appariement� de segments par l'homégénéitéLa mesure suivante permet d'estimer la validité de ce paramètre. Soit Eg l'ensemble des

Ng segments issus de l'image gauche et Ed l'ensemble des Nd segments issus de l'image droite.

151


Chaque segment possède deux niveaux d'homogénéité �gauche�, Hg1 et Hg2 , et deux niveauxd'homogénéité �droite�, Hd1 et Hd2 . Si le plus haut niveau d'homogénéité n'a pas été satisfaisant,ces valeurs sont −1. Nous calculons les �probabilités� pij qu'un segment i ∈ [1;Ng] correspondeau segment j ∈ [1;Nd], comme suit :

pij =(1− |Hd1

(i)−Hd1(j)|

n

)·(1− |Hg1 (i)−Hg1 (j)|

n

)·(

1− |Hd2(i)−Hd2

(j)|n

)·(1− |Hg2 (i)−Hg2 (j)|

n

) (6.14)

n étant le nombre de niveaux de couleur disponibles. Selon cette formule, si par exemple Hd1(i) =Hd1(j) alors la probabilité que ces deux niveaux soient identiques sera maximale. Une fois l'en-semble des probabilités calculées, nous cherchons pour chaque segment i la valeur max(pij),j ∈ [1;Nd] : le segment j doit être le segment correspondant au segment i au sens des homo-généités. En procédant de manière croisée, c.-à-d. en véri�ant que la valeur pij maximale pourle segment i le soit aussi pour le segment j, nous faisons un �appariement� dont l'analyse desrésultats nous encourage à utiliser ce paramètre. Soit les segments des images 6.31b et 6.32b. Cessegments ont été construits par sursegmentation selon l'espace RVB des images 6.28a et 6.28bpuis ils ont été sélectionnés en ne tenant compte que des segments ayant au moins une homogé-néité. Le calcul de la matrice P = {pij} et le calcul croisé de max(pij) ∀i ∈ [1 : Ng], ∀j ∈ [1;Nd]nous donnent les résultats du tableau 6.11. Ce tableau montre qu'indépendamment de tout autreparamètre de segment, il est possible d'associer à près de 80% les segments stéréoscopiques enutilisant les quatre valeurs d'homogénéité calculées. Par �hors zone�, nous désignons les paires desegments mal appariés dont au moins un des segments ne se trouve pas, ou alors partiellement,dans la zone commune des images : des paramètres géométriques doivent pouvoir éliminer detelles associations. Par �en zone�, nous désignons les paires de segments mal appariés dont lesdeux segments sont dans la zone de recouvrement des images.

Tab. 6.11 � Résultats d'un �appariement� de segments par le paramètre d'homogénéité.Initiaux Triés Appariés Non appariésSegments image gauche 566 233 186 47Segments image droite 513 190 186 4

Mal appariésAppariés Bien appariés hors zone en zonePaires de segments 186 (100%) 152 (81,72%) 21 (11,29%) 13 (6,99%)

Ces valeurs justi�ent notre intérêt sur ce paramètre pour la phase d'appariement des segments.

6.2.2 Paramètre : distance caractéristiqueLe second paramètre envisagé est une distance entre les niveaux de couleurs des deux régions

d'un segment. Une distance a l'avantage, par rapport à des couleurs caractéristiques des régions,de caractériser avec une seule valeur les deux régions du segment. Par contre, une distancereprésente un �compromis� puisqu'elle tient compte de tous les pixels des deux régions, aucontraire d'une couleur caractéristique propre à chaque région. Les di�érentes distances que nousavons envisagées sont des mesures entre histogrammes ou distributions, ce que sont �nalementles ensembles de pixels formant le voisinage d'un segment. Ces distances sont :

152


Les distances de Minkowsky : Ce sont des distances courantes comme la distance eucli-dienne.

dLp(H1,H2) =

(n∑

i=1

(h1ci− h2

ci)p

) 1p

(6.15)

La distance du χ2 : Cette distance permet de déterminer la similitude entre deux distributions(histogrammes) en se basant sur l'hypothèse que la ou les distributions sont gaussiennes :

dχ2(H1,H2) =n∑

i=1

(h1ci− h2

cj)2

(h1ci

+ h2cj

)2(6.16)

La distance de Kullback-Leibler : La divergence de Kullback-Leibler [69] mesure la capacitéd'un histogramme H1 d'être utilisé pour coder un second histogramme H2 :

dKL(H1,H2) =n∑

i=1

h1ci

logh1

ci

h2ci

(6.17)

Earth Mover's Distance (EMD) : Proposée par Rubner [114], cette distance est initialle-ment utilisée pour résoudre des problèmes de navigation dans une base d'images. Pardé�nition, l'EMD permet d'extraire la quantité d'énergie nécessaire pour transformer unesignature S1 en une autre S2. Chaque signature est considérée comme une distribution :

S1 = {(c11, $

11), ..., (c

1m, $1

m)}, soit m composantes.

S2 = {(c21, $

21), ..., (c

2n, $2

n)}, soit n composantes.Il est nécessaire de dé�nir une matrice D des distances entre composantes couleurs desdeux distributions : D = (dij) avec dij = d(c1

i , c2j ). L'énergie de transformation recherchée

correspond à un ensemble de déplacements ou de transferts F = [fij ], avec fij le transfertde ci vers cj . De plus, cette énergie, pour être la mesure entre ces deux distributions, doitminimiser la fonction de coût suivante :

L(S1, S2, F ) =m∑

i=1

n∑j=1

d(c1i , c

2j ) · fij (6.18)

Pour contrôler les échanges d'énergies impliqués, quelques règles doivent être respectés :

1. fij ≥ 0, 1 ≤ i ≤ m, 1 ≤ j ≤ n : le transfert se fait de S1 vers S2 et non l'inverse.

2. ∑nj=1 fij ≤ $1

i , 1 ≤ i ≤ m : la quantité de la composante ci transférée vers les autrescomposantes doit être limitée.

3. ∑mi=1 fij ≤ $2

j , 1 ≤ j ≤ n : la quantité d'énergie recevable doit être limitée.

4. ∑mi=1

∑nj=1 fij = min(

∑mi=1 c1

i ,∑n

j=1 c2j ) : le quantité d'énergie transférable en tout

doit être limitée.

153


A partir de l'ensemble des déplacements optimaux F , la distance EMD est alors dé�nie :

dEMD(S1, S2) =

m∑i=1

n∑j=1

d(c1i , c

2j )fij

m∑i=1

n∑j=1

fij

(6.19)

Le formalisme proposé par Rubner remplit toutes les conditions pour déterminer la dis-tance optimale entre deux histogrammes mais la complexité introduite par l'algorithmed'optimisation le rend coûteux en temps de calcul.

Nous avons �nalement choisi, de manière expérimentale, l'EMD pour caractériser les régionsvoisines des segments d'autant plus qu'elle permet de mieux mesurer les dissimilarités percep-tuelles que d'autres distances. Appliqué aux histogrammes P et Q des pixels voisins d'un segment,projetés selon l'axe couleur déterminé préalablement, l'EMD devient :

dEMD(P,Q) =m+n−1∑

k=1

|p− q|(rk+1 − rk) (6.20)

Où r1, r2, ...,rm+n est l'ensemble p1, p2, ...,pm, q1, q2, ...,qn et :

p =m∑

i=1

[pi ≤ rk]wpi q =n∑

j=1

[qi ≤ rk]wqj (6.21)

Où m et n sont les nombres de niveaux de couleur de P et Q, et [.] vaut 1 quand l'argument estvrai, et 0 sinon.

6.2.2.1 Exemple d'�appariement� de segments par l'EMDEn reprenant ce que nous avons fait avec l'homogénéité, nous pouvons estimer l'emploi de

l'EMD, calculé entre régions encadrant un segment, pour la phase d'appariement. Soit Eg l'en-semble des Ng segments issus de l'image gauche et Ed l'ensemble des Nd segments issus del'image droite. Chaque segment possède une distance dEMD entre sa région �gauche� et sa ré-gion �droite�. Nous calculons pour chaque paire potentielle de segments la di�érence absolueentre les distances des deux segments :

dij = |dEMD(i)− dEMD(j)| ∀i ∈ [1;Ng], ∀j ∈ [1;Nd] (6.22)Une fois l'ensemble des di�érences calculées, nous cherchons pour chaque segment i la valeur

min(dij), j ∈ [1;Nd] qui indique que le segment j correspond au segment i au sens de l'EMD.En procédant de manière croisée, c.-à-d. en véri�ant que la valeur minimale dij pour le segmenti l'est aussi pour le segment j, nous faisons un �appariement� dont l'analyse des résultats estrésumée au tableau suivant, avec les mêmes segments utilisés pour estimer l'homogénéité.

Ces résultats sont moins bons que ceux obtenus avec les homogénéités : cela peut être dueau fait que nous proposons d'utiliser quatre valeurs d'homogénéité au lieu d'une pour l'EMD.

154


Tab. 6.12 � Résultats d'un �appariement� de segments par le paramètre d'EMD.Initiaux Triés Appariés Non appariésSegments image gauche 566 233 173 60Segments image droite 513 190 173 17

Mal appariésAppariés Bien appariés hors zone en zonePaires de segments 173 (100%) 126 (72,83%) 29 (16,76%) 18 (10,41%)

6.2.3 Expérimentation et résultats de l'appariement couleurPour valider de manière plus probante l'emploi de l'homogénéité locale et de la distance EMD

en tant que paramètres couleurs discriminants pour l'appariement de segments, nous procédonsà une expérimentation à grande échelle dont le protocole est le suivant :

� constitution d'une base de paires d'images,� segmentation de ces images,� sélection ou tri des segments,� appariement �manuel� des segments retenus de chaque paire d'images,� appariement �automatique� via le critère d'homogénéité,� appariement �automatique� via le critère d'EMD,� analyse comparative entre l'appariement manuel et les deux appariements automatiques.

L'objectif de cette expérimentation, de la manière dont nous la conduisons, est de comparer ceque donne un appariement fait par le système, en n'utilisant que les deux paramètres proposés,et un appariement de référence fait par un �expert� humain.

6.2.3.1 Constitution de la base de paires d'imagesNous avons besoin d'un nombre conséquent de paires d'images de type stéréoscopique repré-

sentant une même scène pour que les segments obtenus à partir de l'une puissent être appariés àceux obtenus à partir de l'autre. Nous disposons déjà de trois bases, pour un total de deux centquarante-huit images, précédemment acquises dans le cadre de la segmentation couleur mais cesimages n'ont pas été prises de manière à former des paires au sens où nous l'entendons. Nouspouvons néanmoins les utiliser en opérant un découpage de chaque image en deux �sous-images�droite et gauche ayant une zone commune (ou de recouvrement). Cette manière de procédersoulève deux points de discussion :

� Théoriquement, deux images stéréoscopiques se dé�nissent par deux points de vue di�é-rents, que ce soit en translation ou en orientation. Le fait de remplacer deux images stéréo-scopiques par deux images extraites d'une unique image revient à uni�er les deux pointsde vue. Le calcul des coordonnées 3D des segments doit alors mettre en évidence l'absencede profondeur : tous les segments sont sur le même plan. Cela reste compatible avec notreobjectif d'apparier les segments en utilisant deux paramètres basés sur la couleur.

� D'un point de vue colorimétrique, nous émettons l'hypothèse que le système de visionstéréoscopique est calibré de manière à ce que chaque caméra perçoive les couleurs à l'iden-tique. En posant cette hypothèse, nous justi�ons le fait que les pixels correspondant àla zone de recouvrement de deux images extraites d'une unique image aient les mêmes

155


couleurs.Pratiquement, nous découpons une image de manière à ce que :� les deux �sous-images� soient de même dimensions,� les deux �sous-images� aient les plus grandes dimensions possibles,� la zone commune soit de quatre cinquièmes de la largeur : nous avons �xé cette valeur pourque les deux images soient su�samment di�érentes pour l'expérience.

La �gure 6.33 illustre la manière dont nous extrayons les images constituant une paire (dont unexemple a été vu précédemment à la �gure 6.28). Sur cette �gure, HX et LX désigne respective-ment la hauteur et la largeur des images, Xorigine, Xgauche et Xdroite désignent respectivementl'image originale et les images �gauche� et �droite� résultant du découpage.

Lorigine

Lgauche

Ldroite

H gauc

he_d

roite

H orig

ine

� � � � � � ��

� � � � � � ��

� � � � � � ��

� � � � � � ��

� � � � ��

� � � � ��

<<1>>

<<1>>

<<4/5>>

Fig. 6.33 � Découpage d'une image et zone de recouvrement.

Nous avons �nalement à notre disposition deux cent quarante-huit paires d'images sur les-quelles nous allons pouvoir opérer.

6.2.3.2 Segmentation des paires d'imagesAprès avoir constitué notre base de paires d'images, nous segmentons chaque image en uti-

lisant les programmes développés pour les besoins des travaux menés au chapitre 5. Suite auxrésultats obtenus dans ce même chapitre, nous optons pour une sursegmentation des images enconservant l'espace couleur d'origine RVB.

Les paramètres couleurs que nous proposons sont calculés lors de cette phase comme nousl'avons montré à la �gure 6.27. Les paramètres sont calculés selon un axe qui est choisi indé-pendamment de l'espace couleur utilisé pour la segmentation proprement dite. Le tableau 6.13recense pour chaque axe couleur le nombre de fois où il a été choisi pour le calcul des paramètrescouleurs d'une paire.

156


Tab. 6.13 � Choix des axes pour le calcul des paramètres.R V B Rn Vn Bn I117 1 23 3 1 4 0

6,85% 0,4% 9,27% 1,21% 0,40% 1,61% 0%I2 I3 L* u* v* a* b*8 4 4 4 7 2 0

3,23% 1,61% 1,61% 1,61% 2,82% 0,81% 0%S(HSI) Y T1 T2 U V I14 0 0 0 0 0 11

5,65% 0% 0% 0% 0% 0% 4,44%Q X Y Z x y z4 33 19 76 1 4 8

1,61% 13,31% 7,66% 30,65% 0,4% 1,61% 3,23%

Ce tableau montre certaines diparités dans le choix de l'axe couleur. Premièrement, l'axe Zest choisi par le système près d'une fois sur trois ce qui le place largement devant tous les autresaxes. Les axes X et Y qui complètent l'espace XYZ sont eux aussi choisis fréquemment. Les axesR et B (espace RVB) et S (espace HSI) sont les trois derniers axes choisis dans plus de cinqpour-cent des cas. Exception faite de ces six axes, la plupart des axes sont marginalement choisiset certains ne sont même jamais choisis tels I1 (axe d'intensité), Y, T1, T2, U et V (espacesYT1T2 et YUV) et b*. Il est possible que nous puissions rejeter ces sept axes de nos traitementspuisqu'ils ne sont jamais choisis. Pour les autres axes, l'analyse des résultats de l'appariementnous permettra de déterminer si ils in�uent ou non sur la qualité de l'appariement.

6.2.3.3 Sélection des segments

Pour pouvoir mener à terme notre expérience, nous avons prévu une phase d'appariementmanuel qui consiste à apparier les segments d'une paire d'images par un �expert� humain. Cetexpert n'a pas nécessairement connaissance du contenu initial des images et utilise principalementdes informations visuelles de nature géométrique et relative pour opérer : suivant la dispositiondes segments les uns par rapport aux autres ainsi que leur dimension et leur orientation, l'expertparvient à trouver les bonnes correspondances entre segments de l'image gauche et de l'imagedroite. Toutefois, comme nous l'avons vu précédemment, le nombre de segments dont nous dis-posons pour une image est important : cela fait de l'appariement manuel une opération longueet complexe. Pour la simpli�er, nous décidons de trier préalablement les segments en utilisantdi�érents critères. Nous commençons par supprimer les segments multiples et superposés (voirsection 5.6), et les segments n'ayant pas au moins une couleur homogène (voir section 6.2.1.1).Ensuite, nous sélectionnons les plus grands segments pour plusieurs gammes d'orientation pos-sibles (voir section 5.6) ce qui nous amène �nalement à soumettre à l'expert une cinquantainede segments par image.

157


6.2.3.4 Appariements manuel et automatiquesL'appariement manuel a pour but de nous assurer des données de référence auxquelles se-

ront comparés les données résultant de l'appariement automatique. Pratiquement, elle consisteà soumettre à l'expert, simultanément, les segments d'une image gauche et d'une image droite.Ces segments étant numérotés, l'expert note, pour chaque paire de segments qu'il estime bienappariés, leurs numéros respectifs. Tous les segments ne sont pas systématiquement appariés : lenombre de segments appariés peut donc varier d'une paire d'images à une autre. Finalement lesinformations que nous récoltons sont les suivantes :

� nom de l'image initiale,� axe couleur utilisé pour le calcul des paramètres,� liste des paires de segments �gauche� et �droite�.Pour opérer l'appariement dit automatique, nous appliquons aux segments utilisés lors de

l'étape manuelle les équations 6.14 et 6.22, correspondant respectivement à l'appariement enfonction de l'homogénéité locale et de l'EMD. Là encore, les résultats sont fournis sous formede liste de paires de numéros correspondant aux numéros du segment �gauche� et du segment�droit� appariés par l'algorithme. Comme pour l'appariement manuel, les segments ne sont pastous systématiquement appariés et des valeurs singulières (ex : −1) sont alors associées auxnuméros des segments que l'algorithme ne parvient pas à apparier.

La structure similaire adoptée pour décrire les paires de segment, aussi bien par l'expert quepar le système, permet de comparer directement les paires entre elles.

6.2.3.5 Résultats et analyses des appariementsUne fois les appariements e�ectués, nous comparons les paires de segments obtenues auto-

matiquement avec celles manuellement. Si une paire appariée par le critère d'homogénéité oupar le critère d'EMD se révèle avoir été appariée par l'expert alors nous la quali�ons de �bienappariée�. Au contraire, si elle n'a pas été appariée par l'expert alors elle est quali�ée de �malappariée�. Nous retrouvons ici la problématique de la classi�cation telle que vue à la section 4.2.

En tout, pour l'ensemble des trois bases de paires d'images que nous avons, nous avonsappariés près de cinq mille deux cent paires de segments, soit une moyenne d'environ vingt-et-une paires de segments par image. Le tableau suivant montre la répartition entre paires bienappariées et mal appariées en fonction de nos deux paramètres.

Tab. 6.14 � Résultats de l'appariement en fonction de l'homogénéité locale et de l'EMD.Paires HOM EMDbien appariées 75,73% 48,51%mal appariées 24,27% 51,49%

Nous voyons que le paramètre d'homogénéité, seul, est su�samment discriminant pour re-trouver près de trois fois sur quatre les segments qui ont été correctement appariés par l'expert,et ce indépendamment de tout autre critère. La distance EMD est moins e�cace avec un tauxde réussite de l'ordre d'une fois sur deux. Ces résultats correspondent à la répartition de l'en-semble des segments mais il est possible de s'intéresser à la répartition �image par image�. Nous

158


dé�nissons alors cinq degrés de qualité auxquels une paire d'image doit correspondre :� cent pour-cent des paires de segments sont bien appariées (bleu),� les paires bien appariées sont plus nombreuses que les mal appariées (vert),� les paires bien et mal appariées sont en nombres égales (gris),� les paires bien appariées sont moins nombreuses que les mal appariées (jaune),� cent pour-cent des paires sont mal appariées (rouge).

Les �gures 6.34 et 6.35 montrent la proportion de paires d'images de notre base qui entrent dansl'une de ces catégories.

« +++ » 17,27%

« + » 61,15%

« = » 1,44%

« - » 16,55%

« --- » 3,60%

Fig. 6.34 � Qualité de l'appariement en fonction de l'homogénéité locale.

« +++ » 0,72%

« + » 48,20%

« - » 46,76%

« --- » 4,32%

Fig. 6.35 � Qualité de l'appariement en fonction de la distance EMD.

Avec l'homogénéité, la majorité des paires d'images entrent dans la deuxième catégorie : leurs

159


segments sont plus souvent correctement appariés que le contraire. De plus, un nombre non né-gligeable de paires d'images ont cent pour-cent de leurs segments bien appariés. Par contre, ilarrive pour certaines images que le contraire se produise : toutes les paires de segments auto-matiquement appariées ne correspondent pas à des paires appariées manuellement. En cumulantles paires d'images entrant dans les deux première catégories, nous voyons que le pourcentage debons résultats dépasse celui du tableau 6.14 : cela s'explique par le fait que le nombre de pairesde segments appariées �uctue d'une paire d'images à l'autre. Pour la distance EMD, la di�érenceentre bons et mauvais résultats reste similaire quel que soit le point de vue (images ou segments).

La �gure 6.36 a�ne la lecture des deux �gures précédentes en proposant une lecture parfourchette de paires de segments bien appariées.

« 0-

9% »

« 10

-19%

»

« 20

-29%

»

« 30

-39%

»

« 40

-49%

»

« 50

-59%

»

« 60

-69%

»

« 70

-79%

»

« 80

-89%

»

« 90

-99%

»

« 10

0% »

0%

5%

10%

15%

20%

25%

30%

HOMEMD

Fourchette de paires de segments bien appariées

Pour

cent

age

de p

aire

s d'

imag

es

Fig. 6.36 � Qualité de l'appariement par tranches.

Nous pouvons voir qu'avec le critère d'homogénéité la majorité des paires d'images voientleurs segments bien appariés à plus de soixante-dix pour-cent. Avec le critère d'EMD, les pairesd'images se divisent globalement en deux blocs : celles dont zéro à trente pour-cent des segmentssont bien appariés, et celles dont soixante-dix à quatre-vingt-dix pour-cent de leurs segmentssont bien appariés.

Un autre élément que nous pouvons analyser est, pour une paire de segment donnée, si elleest bien OU mal appariée via l'homogénéité ET si elle est bien OU mal appariée via l'EMD.Nous avons alors quatre possibilités ce que montre le tableau 6.15.

Tab. 6.15 � Résultats de l'appariement en fonction de l'homogénéité locale et de l'EMD.Homogénéité - EMD Paires de segments

B - B 45,49%B - M 30,24%M - B 3,02%M - M 21,25%

Nous voyons que si nous comparons les deux paramètres, l'homogénéité apporte plus à l'EMD

160

6.3 Conclusion

que le contraire : les paires de segments bien appariées uniquement par l'homogénéité sont bienplus nombreuses que celles bien appariées uniquement par l'EMD.

Pour expliquer le fait que certaines paires d'images ne permettent pas un bon appariementde leurs segments, nous avons regardé les axes utilisés pour calculer les paramètres couleurs à larecherche d'axes couleurs singuliers. Il se trouve que les axes couleurs les plus souvent désignéspeuvent être associés aussi bien à de mauvais appariements qu'à des bons. Pour les axes choi-sis marginalement, ils correspondent majoritairement à de bons résultats d'appariement. Notreméthode consistant à choisir pour chaque paire d'images un axe couleur bien particulier pour lecalcul des paramètres conserve donc son intérêt puisque les mauvais résultats d'appariement nesont pas liés à ce choix.

Notre expérience consiste principalement a évaluer individuellement chacun des deux para-mètres couleurs. A ce titre, nous constatons que le paramètre d'homogénéité est plus performantque la distance EMD. La nature des deux paramètres explique cette di�érence. Dans un cas, nousavons de une à quatre valeurs de �couleur� pour chaque segment qui dépendent de la répartitionspatiale des pixels composant le voisinage du segment. Dans l'autre cas, nous avons une mesurede distance unique qui tient compte des valeurs de �couleur� de tous les pixels : elle est fonctiondu nombre de pixels du voisinage (lui-même fonction de la longueur du segment) et n'inclutpas uniquement les �couleurs� homogènes (celles constituant le premier paramètre). La distanceEMD est donc plus facile à biaiser que ne le sont les couleurs homogènes. Le contenu des imagesexplique certains des mauvais résultats obtenus avec le paramètre d'homogénéité : il existe no-tamment des éléments de type texture (répétition d'un élément comme pour les carrelages oules escaliers) dont les couleurs homogènes peuvent être identiques pour plusieurs éléments de lascène.

Finalement, pour compléter l'étude des deux paramètres que nous proposons, il sera nécessairede les comparer avec les autres critères dont nous disposons et d'étudier leur apport à l'algorithmede classi�cation hybride décrit à la section 4.2.

6.3 Conclusion

Ce chapitre est dédié à la caractérisation des couleurs. Nous avons ainsi développé une mé-thode originale de quanti�cation basée sur la transformation du boulanger et la sélection parmiplusieurs palettes possibles de l'une d'entre elle : la palette médiane. Cette méthode a donnéde très bons résultats visuels, con�rmés par des mesures objectives et subjectives [91] [97] [75][94]. Cette méthode de quanti�cation nous permet également de caractériser une image, ce quenous reprenons pour choisir un axe couleur lors du processus de segmentation d'images. L'axecouleur ainsi choisi nous permet de calculer les valeurs de deux paramètres couleurs que nousavons choisi pour l'appariement des paires de segments stéréoscopiques : ce sont un paramètred'homogénéité des niveaux de couleurs dans les régions encadrant un segment et une distanceEMD entre pixels des deux mêmes régions [96]. Notre expérimentation d'appariement a montréque le premier paramètre se révèle très discriminant avec un taux de réussite global de trois surquatre, et que le second paramètre l'est un peu moins avec un taux de réussite de un sur deux.Ces résultats sont satisfaisants et montrent que l'information couleur est pertinente et utile pourl'appariement de segments.

161

Apports de la couleur en localisation

globale

163

Chapitre 7

Invariant couleur pour la localisation

d'un robot d'intérieur par indexation

d'images

7.1 Introduction

Dans les chapitres précédents, nous avons montré ce que la couleur pouvait apporter pouraméliorer la localisation �ne d'un robot d'intérieur en utilisant un système stéréoscopique. Danscette partie, nous nous proposons d'explorer une deuxième problématique pour la localisationdu robot, à savoir sa �relocalisation� en cas de perte complète de repères. C'est ce que nousappellerons la localisation globale du robot. Il n'est pas ici question de pouvoir donner uneposition précise, mais d'être capable de donner deux informations au système : dans quellepièce d'un appartement se situe le robot, et quelle est grossièrement son orientation dans cettepièce. Pour proposer des solutions permettant d'atteindre cet objectif, nous avons fait les choixsuivants :

� Travailler en vision monoculaire avec une caméra couleur ;� Utiliser un principe d'indexation d'images en travaillant sur l'information couleur ;� Dé�nir un invariant couleur basé sur la transformation du boulanger.Le travail présenté dans ce chapitre n'est qu'une première approche de ce qui pourrait être

fait dans ce domaine. Le principe que nous avons retenu est le suivant. Une campagne de prisede photographies est réalisée dans l'environnement (un appartement) où le robot doit évoluer.Ces photographies constituent une base de données d'images qui sont accompagnées de rensei-gnements concernant le lieu où elles ont été prises : nom de la pièce, orientation, pièces liées,vues connexes et cætera. Lorsque le robot est perdu, il fournit au système de localisation uneprise de vue de son environnement (ou image requête) qui représente une interrogation pour labase d'images. Le but est de retrouver rapidement l'image la plus ressemblante à l'image requêtede manière à permettre au système de pouvoir aborder l'étape de localisation �ne. Cette pro-cédure relève de la problématique générale de l'indexation d'images [100]. Les images prises parla caméra du robot di�èrent des images constituant la base : bien que la base d'images décrivela totalité de l'environnement (de manière non exhaustive), la nature �aléatoire� de la naviga-

165

CHAPITRE 7 : Invariant couleur pour l'indexation d'images

tion du robot donne souvent des images ne correspondant pas exactement à celles de la base. Ils'agit donc d'extraire de la base, l'image la plus proche, visuellement, de l'image requête. Pouratteindre cet objectif, nous proposons la dé�nition d'un nouvel invariant couleur qui sera utilisécomme descripteur de chacune des images de la base de données. L'utilisation de la couleur estmotivée par le fait qu'en robotique d'intérieur l'environnement est riche d'informations de cettenature qui varieront d'une pièce à l'autre. Le descripteur que nous proposons est dérivé de latransformation du boulanger présentée dans la section 6.1.

Ce chapitre est organisé de la manière suivante. Dans une première section, nous ferons un brefétat de l'art sur les techniques d'indexation d'images par le contenu. Ensuite nous présenteronsl'invariant couleur imaginé et les résultats obtenus sur une première approche d'indexation et derecherche : ces résultats nous permettent de valider l'emploi d'un tel invariant pour la localisationglobale d'un robot. Puis, nous présenterons une deuxième stratégie d'indexation et de recherchedéveloppée, suite à la validation du concept, pour corriger une partie des défauts de la premièreapproche, en particulier concernant le temps de calcul. En�n, nous conclurons sur ces travaux etévoquerons les perspectives possibles.

7.2 Etat de l'art sur l'indexation de bases d'images couleurs

Les premiers systèmes d'indexation des images se basaient sur l'utilisation de mots-clefs atta-chés aux images. Les résultats de la recherche d'un type d'image particulier étaient inévitablementfonctions des champs lexicaux utilisés. La description des images par de tels champs était fas-tidieuse et l'information codée restait limitée. Le développement du multimédia a changé cela :les images numériques sont de plus en plus nombreuses et des outils spéci�ques sont devenusnécessaires pour stocker les images et les retrouver simplement. C'est ainsi qu'est apparu l'in-dexation d'images par le contenu (sans description textuelle). Mosaic [44], Qbic [38], Sur�mage[101], NeTra [83], VisualSeek [127] sont des exemples de systèmes académiques et/ou scienti�quesbasés sur cette indexation.

De façon générale, l'analyse de données nécessite de dé�nir :Des attributs signi�catifs. Le choix et l'assemblage d'attributs sont traditionnellement e�ec-

tués à partir d'une base d'apprentissage composée de cas classés par un expert.Des métriques de similarité ou de dissemblance. Ces métriques permettent d'ordonner la

population d'apprentissage selon ses caractéristiques dominantes. Cette étape classique-ment attribuée à un outil de classi�cation autorise le positionnement d'un individu au seinde la population d'apprentissage. Suivant la nature de l'application, le résultat est soit unedécision d'appartenance à un groupe (classi�cation classique), soit l'extraction d'individusproches au sens de la métrique utilisée (indexation).

Dans le cas de données images, les attributs peuvent être généralistes ou spéci�ques. Pour desapplications grand public (exemple : recherche d'images sur Internet), les images sont généralisteset souvent hétérogènes : des attributs basés sur les couleurs, les textures ou les formes sont alorsutilisés [9]. Pour des applications plus spéci�ques (exemples : reconnaissance de visages, imageriemédicale, base d'empreintes digitales), les images utilisées sont propres au domaine d'applicationet souvent homogènes : les attributs utilisés peuvent alors inclure des données moins courantes

166


comme l'excentricité du contour d'un visage ou la position d'une tumeur. Parmi les attributspouvant exister, ceux portant l'information colorimétrique occupent une place importante dansl'indexation d'images car elle in�uence fortement la satisfaction de l'utilisateur [133] [115] [126].

Nous présenterons dans cette section les systèmes d'indexation et de recherche d'images parle contenu, di�érentes techniques de description des images couleurs, et di�érentes mesures desimilarité. Cet état de l'art ne vise pas à l'exhaustivité mais sert à situer nos travaux par rapportà l'existant. Ces connaissances sont principalement issues de [130] et du chapitre 7 de [138].

7.2.1 Systèmes d'indexation et de recherche d'images par le contenuUn système d'indexation et de recherche par le contenu repose généralement sur plusieurs

fonctionnalités [57]. Les deux principales sont évidemment l'indexation et la recherche auxquelleson peut ajouter la navigation (interface homme-machine), l'analyse statistique et l'apprentissage.

L'indexation regroupe l'ensemble des techniques permettant d'associer à toute image d'unebase une signature ou index résumant l'information qu'elle contient. Les méthodes de recherchepar le contenu utilisent ces signatures pour comparer les images et extraire des images similairesgrâce à des métriques de similarité ou de dissemblance. Les systèmes d'indexation, bien qu'utili-sant des outils de classi�cation et d'analyse d'images, nécessitent une interaction avec l'utilisateurpour être performants. En e�et, les premières images trouvées par le système sont généralementéloignées d'un point de vue sémantique ; l'utilisateur doit alors intervenir pour guider le système.Il est important de prendre en compte l'intégration de l'homme dans la boucle de traitement carla conception du système va en dépendre selon le mode d'interaction homme-machine envisagé,et selon les objectifs de recherche visés par les utilisateurs. Deux contextes les plus fréquentssont :

� La recherche d'images ou de catégories sans requête initiale. Elle repose sur une modélisa-tion du système à l'aide d'une fonction de pertinence visant à représenter la vraisemblancede chaque image d'être l'image recherchée (image cible). Cette fonction est le plus souventdé�nie au sein d'une famille de fonctions paramétriques. L'ajustement des paramètres sefait via les interactions avec l'utilisateur.

� La recherche d'images similaires à une requête donnée, ou �recherche par l'exemple�. Pluscourante que la première, elle utilise une requête exemple et une fonction de similarité pourcomparer les signatures des images de la base à la requête. L'interaction permet dans cecas de régler aussi bien la requête que la similarité.

L'analyse statistique, est une fonctionnalité particulière puisqu'elle consiste à fournir des résul-tats, non pas de nature visuelle, mais quantitatifs (exemple : le nombre d'images dont le fondest de couleur bleue). Cette fonctionnalité se résume ainsi à extraire des statistiques en fonctiondes caractéristiques des images. En�n, la recherche peut être associée à l'apprentissage qui aun aspect dynamique puisqu'il cherche à adapter la recherche en fonction des requêtes et desrésultats préliminaires. Bien que l'apprentissage ne soit pas obligatoire, il mène à des systèmesde recherche plus e�caces [147].

L'architecture d'un système de recherche d'images peut donc s'illustrer comme à la �gure7.1 qui représente une architecture type articulée autour des fonctionnalités d'indexation (phasehors-ligne) et de recherche par l'exemple (phase en-ligne). La partie hors-ligne est une phase

167


de pré-traitement de l'ensemble des données de la base. Elle comprend aussi bien le calcul desattributs images que la formation complète des signatures. Dans cette phase, le temps de calculimporte peu dans la mesure où ils sont e�ectués hors-ligne en prémisse à toute recherche. Enrevanche, la phase de recherche en-ligne est généralement plus restrictive puisqu'elle s'e�ectueen interaction avec l'utilisateur : les temps de calculs se doivent d'être courts.

Based’images

Baseindexée

Imagerequête

Calcul desimilarité

Calcul de lasignature

Signaturerequête

Imagesrésultats

En−ligne

Interface homme−machine

Indexation

Hors−ligne

Recherche

Recherche interactive

Utilisateur

Fig. 7.1 � Architecture générale d'un système d'indexation et de recherche d'images.

7.2.2 Attributs et index couleursNous allons maintenant présenter di�érents moyens pour déterminer une signature (ou index)

couleur pour chaque image. Une signature doit être compacte, pour être rapidement accessibleet facilement comparable, et su�sament complète pour bien caractériser l'image.

Pour la couleur se pose le choix de l'espace de représentation (voir chapitre 1 et annexe A)et le problème de la quanti�cation couleur. En e�et, une réduction importante du nombre decomposantes couleurs pour chaque image de la base permet la construction de signatures de tailleréduite. Il faut toutefois prendre garde à ne pas choisir une quanti�cation qui altère le contenuau point de provoquer un changement de résultat. Des exemples de techniques de quanti�cationont été présentés à la section 6.1.4 et à l'annexe E.

L'hypothèse de base pour de nombreux développements est que la composition couleur d'uneimage peut être vue comme une distribution probabiliste. La signature couleur d'une image sefait alors en estimant ou modélisant cette distribution.

7.2.2.1 Signature couleur : HistogrammeL'histogramme d'une image représente l'énumération de la densité de chaque couleur présente

dans cette image. Généralement, c'est une fonction de [0, 255]3 dans N qui fait correspondre à

168


tout triplet de couleurs le nombre de pixels ayant ce triplet pour valeur. Ce nombre de couleurs estsouvent très grand, ce qui va à l'encontre de la notion de compaticité des signatures et nécessitedes techniques complexes pour le calcul de similarité. Pour résoudre ce problème, une premièreméthode consiste à comparer des histogrammes de couleurs séparés et une seconde à regrouper lescouleurs en paquets (quanti�cation). La première méthode réduit la complexité des traitementsen séparant chacun des trois canaux et en calculant trois histogrammes monodimensionnels.Mais la majorité des techniques d'indexation basées sur les histogrammes utilisent la deuxièmeméthode qui consiste à quanti�er l'espace des couleurs dans sa globalité.

Soit une image I quanti�ée dans un espace couleur réduit à n couleurs (ou classes couleurs)(c1, c2, ..., cn). L'histogramme couleur H est un vecteur à n composantes (hc1 , hc2 , ..., hcn) pourlequel hci représente le nombre de pixels de la couleur ci dans I. On note que ∑n

i=1 hci = N , oùN est le nombre total de pixels dans I.

L'utilisation de l'histogramme des couleurs est une technique �able par rapport aux variationsde points de vue (rotation, faible changement d'échelle) mais il faut faire attention aux change-ments de luminosité. La simplicité, la vitesse et la �abilité de la comparaison des histogrammesde couleurs constituent les intérêts majeurs de cette technique.

7.2.2.2 Signatures couleurs : MomentsL'histogramme d'une image étant considéré comme une fonction de densité de probabilités,

il est possible d'utiliser les moments statistiques pour indexer les images. La dé�nition des troispremiers moments (moyenne, écart-type et troisième ordre) est donnée par Stricker [130]. Si pij

est la valeur du pixel j pour le canal i, ces moments sont :

µi =1N

N∑j=1

pij , σi =

√√√√ 1N

N∑j=1

(pij − µi)2 , si = 3

√√√√ 1N

N∑j=1

(pij − µi)3 (7.1)

Ces moments apportent une information complète lorsque leur nombre est su�samment im-portant. Cependant, plus le rang du moment à estimer est important, plus le biais d'estimationaugmente. Une signature basée sur ces critères doit donc apporter une pondération décroissanteavec l'ordre de ceux-ci.

7.2.2.3 Signature couleur : Histogramme cumuléPlus robustes vis-à-vis des choix de quanti�cation de l'espace couleur, les distributions cu-

mulées peuvent être préférées aux densités de probabilité estimées via les histogrammes. Dansce cas, la forme discrète d'une distribution cumulée est estimée par un histogramme cumulé.L'histogramme cumulé H = (hc1 , hc2 , ..., hcn) de l'image I est dé�ni à partir de l'histogrammeH par :

hcj =j∑

i=1

hci (7.2)

Notons que hcn =∑n

i=1 hci = N .

169


7.2.2.4 Signatures mixtesLes signatures peuvent utiliser non seulement l'information couleur disponible en chaque

pixel, mais aussi des indices de texture et de forme. Cette diversité permet d'avoir une représen-tation plus complète de l'image. Nous donnons quelques éléments d'information à l'annexe H surdes signatures mixtes texture-couleur et spatial-couleur.

7.2.3 Mesures de similaritéL'analyse de la similarité entre deux images est importante en traitement d'images mais,

pour la recherche (au sens de l'indexation et de la recherche d'images), elle se fait plutôt entreles signatures des images. Les index calculés étant souvent de forme vectorielle, de nombreusesmesures de similarité sont des distances entre vecteurs. Nous présentons quelques-unes de cesdistances ainsi que d'autres mesures spéci�ques à di�érents attributs.

7.2.3.1 Distances entre histogrammesSoit H1 = (h1

c1 , ..., h1cn

) et H2 = (h2c1 , ..., h

2cn

) les histogrammes respectivement de deuximages I1 et I2 quanti�ées sur les mêmes n couleurs c. Diverses distances d(H1,H2) existent quipossèdent les propriétés classiques des distances :

� la positivité : d(X, Y ) ≥ 0,� l'identité : d(X, X) = 0,� la symétrie : d(X, Y ) = d(Y, X),� et l'inégalité triangulaire : d(X, Y ) ≤ d(X, Z) + d(Z, Y ).

Les distances les plus connues sont L1 et L2 qui appartiennent au cadre classique des distancesde Minkowski Lp. En voici quelques-unes :Norme L1 :

dL1(H1,H2) =

n∑i=1

|h1ci− h2

ci| (7.3)

Norme L2 : L2 est la distance euclidienne par excellence et est couramment utilisée.

dL2(H1,H2) =

√√√√ n∑i=1

(h1ci− h2

ci)2 (7.4)

Norme L∞ :dL∞(H1,H2) = max

1≤i≤n|h1

ci− h2

ci| (7.5)

Norme Lp :dLp(H

1,H2) =

(n∑

i=1

(h1ci− h2

ci)p

) 1p

(7.6)

7.2.3.2 Intersection d'histogrammesOutre les distances géométriques vues précédemment, il existe d'autres mesures de ressem-

blance entre histogrammes couleurs. Swain et Ballard [133] proposent ainsi une mesure de simi-

170


larité par estimation du recouvrement entre deux histogrammes normalisés :

dSB(H1,H2) = 1−

n∑i=1

min(h1ci

, h2ci

)

n∑i=1

h1ci

(7.7)

7.2.3.3 Tests d'hypothèses statistiquesUn histogramme de couleurs peut être considéré comme la réalisation d'une variable aléatoire

donnant les couleurs dans une image. Ainsi, les tests d'hypothèses statistiques peuvent s'appliquerpour la comparaison d'histogrammes. On cherche alors à déterminer si deux réalisations (c.-à-d.deux histogrammes) peuvent provenir de la même distribution [46]. La divergence de Kullback-Leibler et la distance du χ2, présentées à la section 6.2.2, entrent dans cette catégorie de mesure.

7.2.3.4 Distances sur histogrammes cumulésLes distances appliquées aux histogrammes cumulés sont analogues à celles des histogrammes

et correspondent souvent à des tests d'hypothèses statistiques. Comme elles sont basées sur desdistributions cumulatives, elles ont tendance à être robustes aux changements locaux de formeet aux petits décalages dans l'image.

dL1(H1, H2) =

n∑i=1

|h1ci− h2

cj| (7.8)

dL2(H1, H2) =

√√√√ n∑i=1

(h1ci− h2

ci)2, test de Cramer-Von Mises. (7.9)

dL∞(H1, H2) = max1≤i≤n

|h1ci− h2

ci|, test de Kolmogorov-Smirnov. (7.10)

Stricker [130] montre que le test de Kolmogorov-Smirnov fournit de meilleurs résultats que lesdeux autres tests et que la mesure de distance euclidienne appliquée aux histogrammes noncumulés. Sethi [122] rapporte quant à lui que le test du χ2 fournit de meilleurs résultats, le testde Kolmogorov-Smirnov venant en second. Ceci est intéressant, car le test du χ2 se base sur unehypothèse gaussienne et est appliqué à l'histogramme présumé bruité, et non sur l'histogrammecumulatif.

7.2.3.5 Métriques pour distributions séparéesDans le cas de quanti�cations séparées pour les deux images ou de palettes de tailles dif-

férentes, les métriques précédentes ne peuvent pas s'appliquer (nombres de couleurs di�érents,couleurs di�érentes). On utilise alors des distances telles celles ci-dessous.Distances quadratiques généralisées : Ces distances sont par exemple utilisées par Equitz

et Niblack [102]. Elles prennent en compte l'intercorrélation entre les composantes couleursvia une matrice de pondération W qui permet d'inclure dans le calcul la ressemblance

171


entre les couleurs. Une distance quadratique généralisée issue de la distance euclidienne estdé�nie par la formule suivante :

dQG(H1,H2) =√

(H1 −H2) ·W · (H1 −H2)T (7.11)

Les composantes wij de la matrice W de pondération peuvent s'interpréter comme desindices de similarité entre les ième et jème éléments respectivement des signatures H1 etH2. Classiquement, W est l'inverse de la matrice d'intercorrélation des classes couleurs.D'autres propositions de matrices de pondérations existent qui se rattachent aux espacesde représentation de la couleur pour dé�nir les distances colorimétriques ou perceptuellesentre les couleurs [26].

Distance de KanKanhali [62] : Pour cette mesure de distance entre H1 et H2 qui ont n etm couleurs, une fonction de permutation P est calculée pour H1, qui transforme chaquecouleur ci de H1 à la plus proche couleur P (i) de H2 (P (i) ∈ {cj}). Cette permutationpeut être calculée comme suit :1. Calculer la matrice de distance G = [g]ij , 1 ≤ i ≤ n, 1 ≤ j ≤ m, où gij est la distance

euclidienne entre les deux couleurs ci et cj .2. Trouver la valeur minimale gxy dans G.3. P (x) = y.4. E�acer la rangée x et la colonne y sans changer le nombre de lignes et de colonnes de

la matrice G.5. Si G est vide alors arrêter sinon aller à l'étape 2.

La distance entre H1 et H2 mesure d'abord la ressemblance entre les tables de référencedes couleurs, puis calcule la distance euclidienne entre les densités :

DKan(H1,H2) =min(n,m)∑

i=1

wi

√(h1

ci− h2

p(i))2 +

min(n,m)∑i=1

cdist(c1i , c

2p(i)) (7.12)

où cdist(c1i , c

2p(i)) = giP (i) est la distance entre les couleurs qui se correspondent dans les

deux tables, et où :wi =

{h1

cisi h1

ci, h2

P (i) > 0,1 sinon.

Distance EMD (Earth Mover Distance) : Proposée par Rubner [114], cette distance per-met une généralisation des mesures entre histogrammes en s'a�ranchissant des limitationsdues aux corrélations existant entre les composantes de ce type de signature couleur, maiségalement en prenant en compte des quanti�cations couleurs di�érentes entre les images.Nous l'avons présentée à la section 6.2.2.

Rapport de ressemblance de Yakimovsky : C'est aussi un test d'hypothèses statistiques.

y(H1,H2) =(σ2

o)n+m

(σ2H1)n(σ2

H2)m(7.13)

172

7.3 Approche par réduction de couleurs

Où σ20 est la variance de la population ayant formé les deux histogrammes, σ2

H1 et σ2H2

sont les variances des histogrammes de H1 et H2, et n et m sont les tailles de chacune despopulations de couleurs.

7.2.3.6 Similarité composéeLorsque l'index utilisé n'est pas un simple vecteur mais un ensemble de vecteurs correspondant

aux M espaces de représentation choisis (couleur, couleur-texture, ...), la similarité globale peutse calculer en fusionnant les scores de similarité partiels obtenus sur chaque espace. La fusions'exprime souvent comme une combinaison linéaire des distances di de chaque espace d'attributs.Elle fournit la dissimilarité totale DS :

DS(I1, I2) =M∑i=1

αidi(H1i ,H2

i ) (7.14)

Les poids αi sont très importants car ils gèrent l'in�uence relative de chaque espace de représen-tation.

Par exemple, la mesure de distance entre les di�érents moments (section 7.2.2.2) donnée parStricker [130] est :

dmom(H1,H2) =3∑

i=1

($1i|µ1i − µ2

i |+ $2i|σ1i − σ2

i |+ $3i|s1i − s2

i |) (7.15)

Les coe�cients de pondération règlent la fonction de similarité suivant la nature de l'application.Par exemple, si toutes les images de la base sont prises dans les mêmes conditions de luminance,il faut mettre wi1 > wi2 et w1i > w3i pour pénaliser le décalage dans la couleur moyenne. Parcontre, dans le cas de di�érentes conditions de luminosité pour les images de la base, la couleurmoyenne n'est pas �able et peut être précédée par un coe�cient w1i petit. D'autre part, pourbaser la comparaison sur un canal bien particulier, par exemple la teinte dans le système HSV,il faut augmenter les coe�cients correspondants.


Nous allons maintenant dé�nir l'invariant couleur que nous nous proposons d'utiliser dansune démarche relevant de l'indexation et de la recherche d'images pour la localisation globaled'un robot. Les résultats obtenus dans le cadre d'un processus réaliste concluront cette sectionen validant notre invariant.

7.3.1 Dé�nition d'un invariant couleur : la paletteLes travaux que nous avons menés sur la quanti�cation couleur (voir section 6.1) ont montré

que nous pouvons disposer d'une palette des couleurs caractéristiques d'une image entière. Cettepalette permet de quanti�er une image sans que la réduction du nombre de couleurs ne changeprofondément la perception de l'image (du point de vue des couleurs, des textures et des formes).Comme cette palette est obtenue de manière adaptative, elle est supposée �unique� pour chaque

173


image et nous la quali�ons d'�invariant� couleur. Cette palette est issue d'une fenêtre extraitedu mélange homogène des pixels d'une image par la transformation du boulanger. La fenêtre enquestion est celle dont la valeur d'intensité moyenne est médiane des valeurs d'intensité moyennede toutes les fenêtres possibles (ou fenêtre médiane). La taille de la fenêtre est modulable etdétermine le nombre de couleurs de la palette : l'invariant peut donc avoir une taille variable.

Les résultats obtenus lors de nos travaux sur la transformation du boulanger étaient obtenuspour un cas particulier d'images : celles de dimension 2n × 2n. En théorie, la transformation duboulanger est applicable à tous types d'images mais seules les images carrées ont une périoderégulière (les images 2n × 2n ayant une période entière) qui permet de savoir quand le mélangedes pixels est optimal. La plupart des images utilisées en indexation ou en localisation robotiqueétant rectangulaires, nous ne pouvons donc pas leur appliquer directement la transformation duboulanger pour extraire une fenêtre. Deux possibilités existent :

� Concevoir directement des palettes de taille �standard� (4, 16, 64, 256 couleurs) via unefenêtre carrée extraite de l'image d'origine : la répartition spatiale des pixels n'est alorspas respectée.

� Approcher la TB par un échantillonnage des pixels à partir de l'image d'origine. On peutalors extraire de manière homogène des pixels via une fenêtre rectangulaire conservant lerapport hauteur-largeur original : le nombre de couleurs de la palette est alors fonction desdimensions d'origine de l'image et n'est pas �standard�.

La seconde possibilité correspond mieux à nos attentes puisqu'elle est plus proche de l'imageoriginale que ne peut l'être une fenêtre carrée pour une image rectangulaire. Le tableau 7.1 montredes exemples de dimensions entières respectant le rapport hauteur-largeur d'une image 480×640(exemple : �gure 7.2) ; il renvoie également aux sous-�gures correspondant aux dimensions desfenêtres (�gure 7.3). Nous remarquons que certaines dimensions amènent à un nombre de fenêtresdisponibles non entier : dans ce cas, des pixels sont exclus du processus de sélection d'une fenêtremédiane. Ces pixels étant relativement peu nombreux et situés sur les bords des images, leur pertereste acceptable. A l'annexe I, nous montrons, pour information, les quanti�cations obtenues pourl'image 7.2 avec chaque fenêtre.

Tab. 7.1 � Exemples de dimensions pour des fenêtres rectangulaires (image d'origine : 480×640).Dimensions 6× 8 9× 12 12× 16 15× 20 21× 28Couleurs 48 108 192 300 588Fenêtres disponibles 6400 2844,44 1600 1024 522,45Pixels �perdus� 0 48 0 0 264Figure 7.3a 7.3b 7.3c 7.3d 7.3e

Par la suite, quelles que soient les dimensions des images, nous ferons toujours référence à laTB et à la fenêtre médiane pour désigner le processus de choix d'une fenêtre de pixels en tantque palette de couleurs.

7.3.2 Méthodologie de validationPour valider l'emploi de notre invariant, nous imaginons le scénario suivant d'un robot à

localiser globalement (sans métrique particulière) dans un environnement domestique.

174


Fig. 7.2 � Exemple d'image 480× 640.

(a) (b)

(c) (d)

(e)

Fig. 7.3 � Fenêtres médianes tirées dela �gure 7.2.

Soit une base d'images représentant l'environnement de manière complète et bien structurée :les images couvrent les di�érentes pièces de la maison selon di�érents angles de vues (par rotationssuccessives de vingt à trente degrés selon les dimensions de la pièce) et à partir de di�érentespositions accessibles par un robot. A chaque image de la base est associée une palette des couleurscaractéristiques de l'image (notre invariant) : l'ensemble des palettes forme une seconde base.Soit un �robot perdu�, c.-à-d. dont on ne connait pas (ou plus) précisemment la position. Cetétat peut arriver suite à une accumulation d'erreurs dans les calculs de positionnement, un arrêtde tout ou partie du système, ou tout autre événement à même d'interférer avec le processus delocalisation �ne. Le robot acquiert une image �requête� et l'analyse suivante se déclenche :

1. L'image requête est projetée sur les di�érents espaces couleurs dé�nis par les palettes dela base. Nous avons alors autant d'images quanti�ées que de palettes.

2. Nous calculons la di�érence entre l'image requête et chacune de ses réductions par unedistance euclidienne (voir section 6.1.2.3).

3. Nous classons ces distances par ordre croissant.4. Nous déduisons, de la distance minimale, la palette conduisant à la réduction la plus proche

de l'image requête. Cette palette est donc celle dont les couleurs altèrent le moins la quan-ti�cation de l'image requête et nous pouvons estimer que l'image l'ayant donnée est prochede l'image prise par le robot : la position et l'orientation lors de la prise de vue de l'imagede la base sont proches de celles de l'image requête.

Une fois l'image de la base identi�ée, les informations relatives à cette image (pièce, orientation)sont récupérées et proposées au système qui peut alors relancer un processus de localisation plusprécis.

175


Le schéma de la �gure 7.4 illustre cette manière de procéder où nous retrouvons plusieurséléments d'indexation et de recherche : une base d'images, une base de signatures (les invariantscouleurs), un processus d'indexation (transformation du boulanger et fenêtre médiane), une imagerequête, une image résultat et un calcul de similarité (distance euclidienne). Bien que le domained'application soit spéci�que - la localisation globale d'un robot dans un milieu intérieur - lesimages sont �génériques� du fait de leur variété. L'utilisateur humain étant remplacé par unrobot, l'interface homme-machine et la recherche interactive disparaissent. En�n, deux élémentsn'entrent pas dans le cadre classique de la recherche d'images : construire en-ligne une nouvellebase de données, et appliquer le calcul de similarité entre les éléments de cette base et l'imagerequête.

Imagerésultat

Based’images

Base desréductions

Base depalettes

Imagerequête Pièce

Orientation

Calcul desdistances

Recherche dela distanceminimale

Quantification

TB médiane

En−ligne

Hors−ligne

Robot

Fig. 7.4 � Localisation globale par réduction de couleurs.

Les �gures suivantes illustrent cette méthode. La �gure 7.5 est une image de type requête.Les �gures 7.6a et 7.6b sont deux images d'une base et les �gures 7.7a et 7.7b leurs palettesrespectives. Ces images sont de dimensions 640 × 480 et les palettes comportent 300 couleurschacune (fenêtres 20×15). En�n, les �gures 7.8a et 7.8b montrent le résultat de la quanti�cationde l'image requête par les palettes 7.7a et 7.7b. Le tableau 7.2 montre la distance euclidiennemoyenne, selon les plans rouge, vert et bleu, entre les deux images quanti�ées et l'image requête(voir section 6.1.2.3).

Tab. 7.2 � Di�érences entre image 7.5 et images 7.8.Figure δR δV δB

7.6a 3,84 3,80 4,397.6b 41,99 15,07 31,16

176


Fig. 7.5 � Image requête 480× 640.

(a) (b)

Fig. 7.6 � Deux images 480× 640 d'une base.

177


(a) (b)

Fig. 7.7 � Palettes de 300 couleurs des �gures 7.6a et 7.6b.

(a) (b)

Fig. 7.8 � Image requête quanti�ée par les palettes 7.7a et 7.7b.

178


Visuellement l'image 7.6a est très proche de l'image requête contrairement à l'image 7.6b.La palette 7.7a doit donc contenir un ensemble de couleurs proches de celles de l'image requête,et pas la palette 7.7b. Les images quanti�ées selon ces deux palettes con�rment l'impressionvisuelle, de même que les valeurs du tableau 7.2. Ces valeurs montrent une certaine corrélationentre les distance δ et la dynamique des couleurs d'une palette : plus les distances sont faibles,plus les couleurs d'une palette sont proches de celles de l'image requête, et vice versa.

7.3.3 Validation de l'invariantUne fois dé�nis notre invariant couleur et la manière de l'utiliser, nous faisons une campagne

d'expérimentations pour valider son usage.Nous avons spécialement constitué deux bases d'images pour cette occasion. Elles ont été

prises dans di�érentes pièces de deux maisons particulières. Dans chaque pièce, nous retrouvonsplusieurs images correspondant à di�érentes positions atteignables par un robot. De plus, àchaque position, des images sont acquises balayant toutes les directions par pas de 30◦. Pourla seconde base, la prise des photos s'est déroulée lors de di�érentes journées et à des horairesdi�érents pour prendre en compte des variations de luminosité ; des images tiennent égalementcompte des variations d'éclairage arti�ciel. En tout, les deux bases sont respectivement de 240 et586 images de dimensions 480×640. Outre les images constituant les deux bases, deux ensemblesd'images �requêtes� sont également disponibles, respectivement de 20 et 35 images.

Les résultats obtenus expérimentalement sur ces deux bases consistent en l'analyse des imagesréponses pour chaque image requête. Les réponses sont de trois types :Bonne : L'image réponse du système a été prise dans la même pièce et selon la même orientation

que l'image requête.Moyenne : L'image réponse a été prise dans la même pièce que l'image requête.Mauvaise : L'image réponse a été prise dans une autre pièce que l'image requête.Les résultats sont aussi obtenus pour des palettes colorimétriques de di�érentes tailles : 48,108, 192, 300 et 588 couleurs (comme dé�nies au tableau 7.1). En�n, nous avons analysé deuxprofondeurs de réponse. Dans un cas nous considérons uniquement la première réponse qui estl'image de la base la plus proche de l'image requête. Dans le second cas, ce sont les trois premièresréponses qui sont analysées. Les tableaux 7.3 et 7.4 synthétisent les résultats obtenus en montrantle nombre de réponses bonne, moyenne ou mauvaise en fonction du nombre de couleurs, ainsique le pourcentage correspondant.

Tab. 7.3 � Résultats pour les 20 images requêtes soumises à la base n◦1.Couleurs 48 108 192 300 588Première Bonne 5 25% 9 45% 8 40% 9 45% 9 45%réponse Moyenne 6 30% 3 15% 4 20% 4 20% 2 10%

Mauvaise 9 45% 8 40% 8 40% 7 35% 9 45%Trois Bonnes 10 17% 11 18% 13 22% 13 22% 13 22%premières Moyennes 24 40% 21 35% 17 28% 18 30% 21 35%réponses Mauvaises 26 43% 28 47% 30 50% 29 48% 26 43%

179


Tab. 7.4 � Résultats pour les 35 images requêtes soumises à la base n◦2.Couleurs 48 108 192 300 588Première Bonne 10 29% 16 46% 17 49% 21 60% 19 54%réponse Moyenne 13 37% 7 20% 12 34% 6 17% 7 20%

Mauvaise 12 34% 12 34% 6 17% 8 23% 9 26%Trois Bonnes 23 22% 35 33% 37 35% 37 35% 35 33%premières Moyennes 43 41% 32 31% 36 34% 37 35% 38 36%réponses Mauvaises 39 37% 38 36% 32 31% 31 30% 32 31%

Ces résultats montrent que le taux de �bonnes� réponses (pièce et orientation) atteint 45%pour les requêtes auprès de la base un, et 60% pour les requêtes auprès de la base deux. Ces tauxsont obtenus si nous considérons la première réponse uniquement et pour des palettes utiliséesde 108 et 300 couleurs. Nous remarquons aussi qu'avec 48 couleurs, le taux de �bonnes� réponsesest plus faible : trop peu de couleurs ne permettent pas de quanti�er correctement les images.Pour autant, l'utilisation de palettes de 588 couleurs ne donne pas de meilleurs résultats, voir unpeu moins bons pour la base n◦2 : plus les couleurs sont nombreuses, plus les palettes peuvents'interchanger. Quand nous analysons les trois premières réponses au lieu d'une, les résultats�mauvais� augmentent : le plus souvent, parmi les trois premières réponses à une requête, uneseule correspond à la requête (les autres réponses correspondant à d'autres pièces). En�n, nouspouvons voir que les résultats sur la seconde base sont meilleurs que ceux sur la première base :le fait de mieux prendre en compte les variations de luminosité améliore la méthode. Si nousnous intéressons uniquement aux réponses concernant la pièce sans se soucier de l'orientation,alors nous sommons les réponses classées �bonnes� et �moyennes� comme le résume le tableau7.5. Les résultats corrects atteignent plus de 75% sur la base n◦2 pour des palettes de 192 et 300couleurs : désigner la pièce où l'image requête est prise est plus e�cace que de désigner la pièceet l'orientation.

Tab. 7.5 � Résumé des résultats où la bonne pièce est désignée.Couleurs 48 108 192 300 588Images requêtes soumises à la base n◦1

Première Bonne+Moyenne 55% 60% 60% 65% 55%réponse Mauvaise 45% 40% 40% 35% 45%Trois premières Bonnes+Moyennes 57% 53% 50% 52% 57%réponses Mauvaises 43% 47% 50% 48% 43%

Images requêtes soumises à la base n◦2Première Bonne+Moyenne 66% 66% 83% 77% 74%réponse Mauvaise 34% 34% 17% 23% 26%Trois premières Bonnes+Moyennes 63% 64% 69% 70% 69%réponses Mauvaises 37% 36% 31% 30% 31%

La �gure 7.9 montre un exemple d'image requête soumise à la base n◦1. Les réponses à cetteimage requête (palettes utilisées : 300 couleurs) sont à la �gure 7.10. Une seule des trois réponsescorrespond à la requête, la �gure 7.10a, tandis que les �gures 7.10b et 7.10c sont issues de piècesdi�érentes.

180


Fig. 7.9 � Exemple d'image requête soumise à la première base.

(a) (b) (c)

Fig. 7.10 � Les trois réponses à la requête de la �gure 7.9.

(a) (b) (c)

Fig. 7.11 � a) Exemple d'image requête soumise à la seconde base, et premières réponses avecdes palettes de a) 48 couleurs et b) 192 couleurs.

181


La �gure 7.11a montre un autre exemple de requête, cette fois soumise à la base n◦2. Les�gures 7.11b et 7.11c montrent les réponses obtenues avec l'emploi de palettes de 48 et 192couleurs. Le résultat est mauvais avec 48 couleurs (7.11c) et bon avec 192 couleurs (�gure 7.11b).

7.3.4 Conclusions sur l'invariant couleurLes résultats obtenus montrent que l'invariant que nous avons dé�ni peut être utilisé comme

descripteur d'images d'intérieur. En se basant seulement sur l'information colorimétrique, nouspouvons retrouver une pièce avec un taux de réussite supérieur à 75%, ce qui est un résultatencourageant. Cependant, la méthode utilisée pour valider notre concept d'invariant couleurest, malgré son intérêt, handicapée par un temps de calcul très important. La quanti�cationde l'image requête selon toutes les palettes de la base prend d'autant plus de temps que labase est volumineuse. Nous avons ainsi, pour une image requête, un temps de réponse de dixminutes pour la première base (240 images) et de vingt-cinq minutes pour la seconde base(586 images), avec une programmation en langage C++. C'est pourquoi, nous envisageons unedeuxième stratégie dans laquelle nous considérons la palette comme un vrai descripteur dansle sens où nous travaillons avec la palette de l'image requête (et non l'image elle-même). Nouschercherons aussi à dé�nir une distance qui permette de comparer les palettes entre elles.

7.4 Approche par distance interpalettes

Maintenant que nous avons validé le concept de notre invariant couleur, notre objectif est demettre en ÷uvre une stratégie de recherche opérationnelle en un temps acceptable (de l'orde dequelques secondes) et conduisant à des résultats du même ordre que ceux obtenus précédemment.

7.4.1 Méthodologie de rechercheDans cette deuxième stratégie, il n'est plus question de quanti�er une image requête par

rapport à toutes les palettes d'une base, puis de désigner comme image réponse celle dont lapalette donne la meilleure quanti�cation. Maintenant, nous déterminons une palette requête àpartir de l'image requête, de manière identique à la construction de la base des palettes. Toutesles distances entre palette requête et palettes de la base sont ensuite calculées. Et l'image réponseest celle qui donne la plus petite distance. De fait, le schéma de la �gure 7.4 est notablementtransformé et la nouvelle stratégie est illustrée à la �gure 7.12. Nous avons maintenant uneapproche qui est similaire à l'indexation et la recherche d'images telles que présentées au débutdu chapitre.

7.4.2 Résultats obtenusPour tester cette nouvelle approche de recherche d'images, nous reprenons certains éléments

d'expérimentation utilisés pour valider le concept de notre invariant couleur. Les résultats sontobtenus sur les mêmes bases et requêtes que précédemment, et nous conservons le principe desréponses �bonne� (bonne pièce et bonne orientation), �moyenne� (bonne pièce mais orientationerronée) et �mauvaise� (mauvaise pièce). Cependant, suite aux remarques faites précédemment,nous n'utilisons que des palettes de 300 couleurs, et nous n'analysons que la première réponse.

182

7.4 Approche par distance interpalettes

Based’images

Base depalettes

Imagerequête

TBmédiane

Imagerésultat

Paletterequête

PièceOrientation

Recherche dela distanceminimale

Calcul desdistances

En−ligne

TB médiane

Hors−ligne

Robot

Fig. 7.12 � Localisation globale par distance entre palettes.

Nous mettons également en ÷uvre trois attributs couleurs (et mesures de similarité) di�é-rents :Palette et distance euclidienne : Chaque palette est un ensemble de pixels issus d'une fe-

nêtre (transformation du boulanger et fenêtre médiane) caractéristique de l'image : laposition d'une couleur dans la palette est liée à sa position dans l'image. Nous calculonsdonc la distance suivante entre les palettes P 1 et P 2 :

d(P 1, P 2) =

hp∑i=1

lp∑j=1

√(R1(i, j)−R2(i, j))2 + (V 1(i, j)− V 2(i, j))2 + (B1(i, j)−B2(i, j))2

hp × lp (7.16)Où hp et lp désignent la hauteur et la largeur de la fenêtre, et R, V et B les composantesrouge, verte et bleue de chaque couleur.

Histogrammme de palette et distance euclidienne : A partir de chaque palette de la base,un histogramme de seize classes couleurs dans l'espace RVB est construit. La distance uti-lisée est alors une distance euclidienne entre deux distributions couleurs :

dL2(H1,H2) =

√√√√ n∑i=1

(h1ci− h2

ci)2 (7.17)

Histogramme de palette et distance du χ2 : En utilisant les mêmes histogrammes de pa-lette, une distance du χ2 est également calculée entre deux distributions couleurs :

χ2 =n∑

i=1

(h1ci− h2

cj)2

(h1ci

+ h2cj

)2(7.18)

La tableau 7.6 montre les résultats obtenus expérimentalement.

183


Tab. 7.6 � Résultats de la deuxième stratégie de recherche d'images sur les bases 1 (20 requêtes)et 2 (35 requêtes).

Réponse Base 1 Base 2Distance euclidienne interpalettes

Bonne 10 50% 60% 15 43% 60%Moyenne 2 10% 6 17%Mauvaise 8 40% 14 40%

Distance euclidienne interhistogrammesBonne 5 25% 45% 9 26% 54%Moyenne 4 20% 10 28%Mauvaise 11 55% 16 46%

Distance du χ2 interhistogrammesBonne 3 15% 45% 11 31% 54%Moyenne 6 30% 8 23%Mauvaise 11 55% 16 46%

Les résultats obtenus en utilisant la distance interpalettes sont meilleurs que ceux obtenus avecles distances interhistogrammes. Ces résultats montrent l'importance de conserver l'organisationspatiale des pixels dans les descripteurs. Cette information est conservée dans nos palettes (voir�gures 7.3) mais ne l'est pas avec les histogrammes de palette. Encore une fois, le taux de bonnesréponses quant à la pièce où est prise l'image requête est supérieur à celui concernant la pièce etl'orientation.

Quand nous comparons ces résultats avec ceux obtenus pour la validation de notre invariantcouleur, nous voyons qu'ils sont légèrement inférieurs. Mais, concernant la réduction du temps decalcul, nous atteignons notre objectif puisqu'il faut maintenant environ une seconde pour délivrerune réponse suite à une requête aux deux bases (avec une programmation en langage C++).

7.4.3 Comparaison avec une approche basée sur les histogrammes couleursdes images

Pour évaluer les deux approches d'indexation et de recherche que nous avons développées,Chaari [14] les a comparées avec une approche basée sur une signature d'images classique :l'histogramme couleur. Di�érentes quanti�cations d'images ont été utilisées, selon deux espacescouleurs RVB et L*u*v*, pour créer les histogrammes : 64, 512 et 4096 couleurs. Et di�érentesmesures de similarité ont été calculées : distance euclidienne, intersection d'histogramme et dis-tance du χ2. L'approche basée sur un histogramme RVB de 4096 couleurs et la distance du χ2 amené aux meilleurs résultats que nous montrons au tableau 7.7. Ce tableau rappelle égalementles résultats obtenus par nos approches par réduction de couleurs (300 couleurs) et distanceinterpalettes.

Les résultats obtenus par nos méthodes sont encourageants mais une méthode classique baséesur les histogrammes couleurs reste visiblement meilleure. Certes le contexte de ces images quisont très proches les unes des autres est assez ingrat, mais Anis Chaari [14] a su developper,à partir de nos travaux, de nouvelles méthodes qui prennent en compte l'aspect spatial despalettes, l'aspect local des couleurs et la recherche hiérarchique. L'organisation spatiale de la

184

7.5 Conclusion

Tab. 7.7 � Comparaison des di�érentes approches d'indexation et de recherche d'images.Méthode Réponse Base 1 (240 images, 20 req.) Base 2 (586 images, 35 req.) Bases 1&2Histogramme Bonne 12 60% 75% 20 57% 80% 78%RVB 16bpp Moyenne 3sec 3 15% 5sec 8 23%

χ2 Mauvaise 5 25% 7 20% 22%Réduction Bonne 9 45% 65% 21 60% 77% 73%des Moyenne 10min 4 20% 25min 6 17%couleurs Mauvaise 7 35% 8 23% 27%Distance Bonne 10 50% 60% 15 43% 60% 60%inter- Moyenne 0,7sec 2 10% 1,1sec 6 17%palettes Mauvaise 8 40% 14 40% 40%

palette est prise en compte en incluant une distance entre matrices de cooccurrence : cela permetune tolérance aux translations et aux faibles changements d'échelle. L'aspect local des couleursest pris en compte en appliquant l'invariant couleur sur des grilles prédécoupées de l'image. En�n,la recherche hiérarchique exploite le fait que les images de la base sont structurées en fonction despièces qu'elles représentent : Chaari caractérise chaque pièce par une palette et associe chaquepalette avec les palettes des quatre plus proches pièces.

Les résultats obtenus par Chaari [14] montrent que les méthodes basées sur la recherchehiérarchique permettent d'obtenir plus de 80% de réponses correctes à une requête donnée. Cesrésultats sont supérieurs à ceux otbenus par la méthode des histogrammes couleurs. Ceci nouspermet d'illustrer l'intérêt o�ert par ce nouvel invariant couleur qui o�re une alternative possibleaux invariantx couleurs dé�nis jusqu'à maintenant.

7.5 Conclusion

Nous avons développé deux approches de localisation globale d'un robot en environnementd'intérieur : elles permettent de fournir des informations sur la pièce et l'orientation où se situele système. Ces deux approches entrent dans le cadre de l'indexation et la recherche d'imagespuisque nous cherchons à identi�er une image par rapport à une base d'images de l'environne-ment. Nos approches sont centrées autour de l'utilisation d'une palette de couleurs représentativesde l'image comme attribut couleur. Cette palette est issue de nos travaux sur la transformationdu boulanger. La première approche proposée est basée sur la quanti�cation d'une image requêtepar rapport aux palettes des images d'une base : le résultat de la recherche dépend d'une distanceeuclidienne entre image requête et images quanti�ées. Cette approche est coûteuse en temps decalcul du fait de la quanti�cation mais nous a permis de valider l'intérêt de notre invariant cou-leur. La deuxième approche est plus conventionnelle et se base sur une distance euclidienne entrepalette requête et palettes de la base. Elle corrige le problème des temps de calcul rencontréavec la première approche. Les résultats obtenus sont encourageants et ont donné lieu à deuxpublications [79] [92]. Nos travaux ont également été étendus par Chaari qui a pris en compte desaspects supplémentaires et amélioré de manière signi�cative les résultats obtenus précédemment.

185

Conclusion

187

Conclusion

Le travail réalisé et présenté dans ce manuscrit est conséquent et touche plusieurs traitementsd'images avec pour �l directeur la couleur : nous avons segmenté des images, classé des segments,quanti�é des couleurs, indexé et recherché des images. Loin d'être indépendants, ces travaux etles résultats que nous avons obtenus ont interagis entre-eux orientant mutuellement les recherchesmenées, l'objectif sous-jacent à tous étant d'utiliser e�cacement la couleur. Nous avons donc étu-dié la couleur à travers son histoire, sa physique et ses mathématiques. Nous avons ainsi vu quela couleur était une science ample et vivante. Le cadre dans lequel nous avons voulu appliquerla couleur est la robotique mobile, plus précisémment celle d'assistance aux personnes handica-pées. En robotique, de nombreux travaux sont menés pour permettre à un robot de se localiserautomatiquement soit de manière précise, soit de manière globale. L'utilisation de capteurs devision en localisation est courante et nécessite di�érents traitements d'images essentiellement enniveaux de gris. Pour la localisation ��ne�, nous avons développés des méthodes et outils à partird'une méthodologie �niveaux de gris� qui inclut la création de segments dans une image, le calculde paramètres propres à chaque segment, et l'appariement des segments stéréoscopiques. Pourla localisation �gobale�, nous avons développé des méthodes centrées sur un concept originald'invariant couleur et entrant dans le cadre de l'indexation et la recherche d'images.

Le premier traitement sur lequel nous avons travaillé est l'étude de la segmentation, c.-à-d.la création de segments, d'une image couleur. Pour faire cela, nous avons développé di�érentesméthodes de segmentation et les avons appliqués sur des images projetées selon di�érents espacescouleurs. Nous avons choisi les espaces étudiés de manière à ce que toutes les familles d'espacessoient représentées : ce sont les espaces RVB, HSI, I1I2I3, L*a*b*, et xyz. Les méthodes de seg-mentation couleur développées sont marginale, vectorielle et par �fusion� des contours. Elles sontcentrées sur le calcul du gradient de l'image : Deriche pour les approches marginale et �fusion�, DiZenzo pour l'approche vectorielle. L'approche marginale est une segmentation monodimension-nelle qui permet d'analyser chaque axe couleur indépendamment. L'approche vectorielle permetd'analyser les espaces en utilisant un gradient couleur. L'approche �fusion� est une variationde l'approche marginale qui met en commun les contours déterminés selon trois axes couleurs.L'analyse des résultats de segmentation s'est faite grâce à des outils spéci�ques : ceux que nousavons utilisés et développés reposent sur l'étude statistique des segments et la comparaison entresegments issus d'une image couleur et d'une image d'intensité. Les statistiques utilisées sont lesquantités, les longueurs et les écarts-types des longueurs de segments. La comparaison s'e�ectueen di�érenciant des histogrammes échelonnés et pondérés de segments. Les résultats obtenusont mis en évidence que les axes d'intensité lumineuse I, I1 et L* sont meilleurs que les axeschromatiques. Et parmi ces derniers, ce sont les axes R, V et B, eux-mêmes porteurs en partiede l'information d'intensité, qui donnent les meilleurs résultats. Du point de vue des espaces,les segmentations vectorielle et par �fusion� des contours montrent que les espaces couleurssont généralement moins bons que les axes d'intensité mais meilleurs que les axes chromatiques,et ce même s'ils incluent un axe d'intensité. Les meilleurs résultats sont obtenus pour l'espaceRVB. Ces résultats étant des moyennes, il arrive qu'un axe chromatique ou un espace entraîneune meilleure segmentation qu'un axe d'intensité. Nous avons également montré que les espacespeuvent être utilisés de manière avantageuse en faisant une sursegmentation, c.-à-d. en segmen-tant selon plusieurs axes puis en réunissant les segments, au détriment d'une certaine redondance.

189

Conclusion

Le deuxième axe de recherche a été la caractérisation d'un segment par des paramètres cou-leurs a�n d'améliorer l'appariement de segments issus d'images stéréoscopiques. Deux paramètrescouleurs ont ainsi été proposés. Le premier est une distance couleur entre pixels des régions en-cadrant les segments : elle est basée sur la distance interimages EMD. Le second est basé sur lanotion de couleur homogène au sein des mêmes régions. Ces deux paramètres sont calculés sur unaxe couleur choisi en fonction de chaque paire d'images pour limiter la quantité de données. Nousavons montré que ces deux paramètres étaient utiles pour apparier les segments entre-eux. Lorsde cette recherche de paramètres, nous avons développé une méthode originale de quanti�cationdes couleurs qui est basée sur la transformation du boulanger. Cette transformation mélange lespixels d'une image de manière homogène : une fenêtre extraite du mélange est caractéristique del'image entière. Nous avons considéré l'ensemble des fenêtres pouvant ainsi être extraites commedes palettes de couleurs et proposé des solutions menant à une fenêtre unique. La solution re-tenue est celle de la fenêtre médiane. Cette méthode de quanti�cation est donc basée sur unepalette adaptative qui permet de mieux conserver les images. Notre quanti�cation s'est révéléee�cace, par rapport à d'autres méthodes, comme l'ont montré des résultats aussi bien objectifsque subjectifs.

Après avoir étudié les traitements mis en ÷uvre pour la localisation ��ne�, nous nous sommesinteressés à la localisation �globale� d'un robot qui consiste à déterminer à quel endroit, et selonquelle orientation, le robot se situe sans que des mesures précises lui soient retournées. Nousavons développés deux approches basées sur l'indexation et la recherche d'images pour réussircet objectif. Soit une base d'images de l'environnement tenant compte de variations de lumièrepour chaque pièce et selon di�érentes orientations. Soit la base indexée associée qui contientpour chaque image un attribut qui est sa palette caractéristique. Cette palette est obtenue parla méthode développée pour quanti�er une image à savoir la transformation du boulanger et lasélection de la fenêtre médiane. La première approche consiste à quanti�er une image requête,acquise par le robot perdu, par toutes les palettes de la base indexée. Puis toutes les distancesentre images quanti�ées et image requête sont calculées et celle qui est minimale permet dedésigner la palette puis l'image de l'environnement correspondant à l'image requête. L'imagede l'environnement identi�ée donne le lieu et l'orientation, de manière globale, du robot. Cetteméthode a permis de valider l'intérêt de la palette de couleurs comme invariant couleur pourl'indexation d'images. Nous avons ensuite développé une autre approche où la palette caractéris-tique de l'image requête est confrontée directement aux palettes de la base indexée : ce sont alorstoutes les distances interpalettes qui sont calculées et la distance minimale permet à nouveau dedésigner l'image de l'environnement correspondant à l'image requête. Cette deuxième méthodea validé l'emploi direct de la palette de couleurs pour l'indexation et la recherche d'images. Desdéveloppements de cette méthode, tenant compte de l'information spatiale de la palette et del'information structurelle de la base, ont donné de meilleurs résultats qu'une indexation et unerecherche utilisant des histogrammes couleurs : la palette adaptative des couleurs est donc unnouvel attribut couleur intéressant.

Le bilan de ces travaux est à faire pour chacun des axes de recherche. L'utilisation de lacouleur dans la construction de segments est essentiellement utile pour mettre en évidence leséléments secondaires d'une image : elle est donc complémentaire à la segmentation d'images

190

Conclusion

d'intensité. En tant que paramètre discriminant, la couleur est utile associée avec des donnéesgéométriques. Notre méthode de quanti�cation est e�cace, simple à mettre en ÷uvre, et duniveau des meilleures méthodes de quanti�cation. En�n, l'utilisation de la palette couleur, issuede notre méthode de quanti�cation, comme invariant couleur pour l'indexation et la recherched'images est une alternative intéressante aux descripteurs existants.

De manière générale, nous avons su utiliser la couleur pour tous les traitements que nous avonsétudié et nous avons su montrer son e�cacité au travers de di�érentes méthodes. Cependant,il est des domaines où l'utilisation de la couleur peut être améliorée d'autant plus qu'elle estdorénavant incontournable en imagerie numérique.

191

Bibliographie

[1] O. Ait-Aider. Localisation référencée modèle d'un robot mobile d'intérieur par vision mo-noculaire. PhD thesis, Université d'Evry, France, décembre 2002.

[2] A. Albiol, L. Torres, and E. J. Delp. Optimum Color Spaces for Skin Detection. InIEEE International Conference in Image Processing (ICIP), volume 1, pages 122�124,Thessaloniki, Greece, October 2001.

[3] M. J. Aldon and L. LeBris. Dynamic localization of a mobile robot using laser ranging.In Mechatronics and Machine Vision In Practice (M2VIP), pages 1 :51�56, Guimaraes,Portugal, September 1996.

[4] P. André. Les Robots de Coopération. PhD thesis, Université de Franche-Comté, France,mars 1980.

[5] V. I. Arnold and A. Avez. Problèmes ergodiques de la mécanique classique. MonographiesInternationales de Mathématiques Modernes n◦9. Gauthier-Villars, Paris, 1967.

[6] T. Asano, M. Edahiro, H. Imai, and K. Murata. Practical use of bucketing techniques incomputational geometry. In G. Toussaint, editor, Computational Geometry, pages 153�195,North-Holland, 1985.

[7] S. Atiya and G. D. Hager. Real-Time Vision-Based Robot Localization. IEEE Trans.Robotics and Automation, 9(6) :785�800, December 1993.

[8] P. Billingsley. Ergodic Theory and Information. John Wiley & Sons Inc., New-York, 1965.[9] S. Boughorbel, N. Boujemaa, and C. Vertan. Description de la répartition spatiale de

la couleur pour l'Indexation d'Images. In 13ème Congrès Francophone AFRIF-AFIA deReconnaissance des Formes et Intelligence Arti�cielle (RFIA), volume 2, pages 407�414,Angers, France, janvier 2002.

[10] J. Brochard and M. Khoudeir. Histogram characterization of colored textures using one-dimensional moments and chromaticity diagram. In The 15th International Conference onVision Interface, Calgary, Canada, May 2002.

[11] L. Brun and M. Mokhtari. Two high speed color quantization algorithms. In Proc. ofCGIP'2000, Saint-Etienne, France, 2000.

[12] J. F. Canny. A computational approach to edge detection. In Transactions on PatternAnalysis and Machine Intelligence, volume 8, pages 679�698. IEEE, 1986.

[13] G. Celeux and E. Diday. Classi�cation automatique des données. Dunod, Paris, France,1989.

193

Bibliographie

[14] A. Chaari. Localisation globale d'un robot par recherche dans une base de données d'imagesd'intérieur. Master's thesis, Ecole Nationale des Sciences de l'Informatique, Université dela Manouba, Tunisie, septembre 2005.

[15] C. Charrier. Vers l'optimisation statistique et perceptuelle de la qualité pour la compres-sion des images couleur par quanti�cation vectorielle. Thèse de doctorat, Université JeanMonnet Saint-Etienne, 1998.

[16] X. Chen, R. Kothari, and P. Klinkhachorn. Reduced color image based on adaptive palettecolor selection using neural networks. In IEEE Proceedings, pages 555�558, 1994.

[17] F. Chenavier, I. Lecoeur, and J. L. Crowley. Estimation de la position d'un robot parodométrie et vision binoculaire. Traitement du Signal, 12(3) :255�268, 1995.

[18] Etienne Colle. Site internet : http ://lsc.univ-evry.fr/projets/arph/.[19] O. Colot. Segmentation d'images couleur - Application en dermatologie. In Ecole de

printemps - Images Couleur, Pau, France, mars 2001.[20] P. Cornu and A. Smolarz. Caractérisation de la signature texturelle d'une image. In

GRETSI, Toulouse, France, septembre 2001.[21] P. Cornu and A. Smolarz. Caractérisation d'images par textures associées. Traitement du

Signal, 19(1) :29�35, 2002.[22] I. J. Cox. Modeling a Dynamic Environment Using a Bayesian Multiple Hypothesis Ap-

proach. Arti�cial Intelligence, 66(2) :311�344, April 1994.[23] P. Dario, E. Guglielmelli, C. Laschi, and G. Teti. MOVAID : a personnal robot in everyday

life of disabled and elderly people. Technology and Disability Journal, (10) :77�93, 1999.[24] F. Dellaert, D. Fox, W. Burgard, and S. Thrun. Monte-Carlo Localization for Mobile Ro-

bots. In Proc. of the IEEE International Conference on Robotics and Automation (ICRA-1999), pages 1322�1328, May 1999.

[25] R. Deriche. Using Canny's criteria to derive an optimal edge detector recursively imple-mented. The International Journal of Computer Vision, pages 167�187, 1987.

[26] G. N. DeSouza and A. C. Kak. Vision for Mobile Robot Navigation : A Survey. IEEETransaction on Pattern Analysis and Machine Intelligence, 24(2) :237�267, February 2002.

[27] J. M. Detriche. Development of a Workstation for Handicapped People Including theRobotized System Master. In ICORR, Atlanta, United-States, 1991.

[28] S. DiZenzo. A note on the gradiant of a multi-image. Computer vision, graphics, and imageprocessing, 33 :116�125, 1986.

[29] A. Doucet, N. de Freitas, K. Murphy, and S. Russell. Rao-blackwellised particle �lteringfor dynamic bayesian networks. In UAI-2000, 2000.

[30] Exact Dynamics. Site internet : http ://www.exactdynamics.nl/.[31] A. M. Eskicioglu and P. S. Fisher. Image quality measures and their performance. IEEE

Transactions on Communications, 43(12) :2959�2965, December 1995.[32] O. Faugeras. Digital Color Image Processing Within the framework of a Human Visual

Model. IEEE Transactions on Acoustics, Speech and Signal Processing, 27(4) :380�393,1979.

194

Bibliographie

[33] O. Faugeras. Three-Dimensional Computer Vision : A Geometric Viewpoint. MIT Press,1993.

[34] O. Faugeras and G. Toscani. The calibration problem for stereo. In Computer Vision andPattern Recognition, pages 15�20, 1986.

[35] M. Fengler and W. M. Cameron. Clinical testing of a low cost robotic arm for the seve-rely physically disabled. In First Int'l Workshop on Robotic Applications in Medical andHealthcare, Ottawa, Canada, 1988.

[36] C. Fernandez-Maloigne and N. Richard. Coding of color images with cooccurrence matricedescriptors. In Proc. of ECCV'2000, Dublin, Ireland, June 2000.

[37] D. Filliat. Robotique Mobile. Cours C10-2, Ecole Nationale Supérieure de TechniquesAvancées (ENSTA), Paris, France, 2004.

[38] M. FLickner. Query by Image and Video Content : The QBIC System. IEEE Computer,28(9) :23�32, 1995.

[39] D. Fox, W. Burgard, and S. Thrun. Markov Localization for Mobile Robots in DynamicEnvironments. In Journal of Arti�cial Intelligence Research, pages 391�427, 1999.

[40] M. M. Galloway. Texture Analysis Using Gray Level Run Lengths. In Computer Graphicsand Image Processing, volume 4, pages 172�179, 1975.

[41] P. Gaussier, C. Joulain, S. Zrehen, and A. Revel. Visual Navigation in an Open Environ-ment without Map. In Proc. of IEEE International Conference on Intelligent Robots andSystems, pages 545�550, September 1997.

[42] R. Gelin, B. Lesigne, M. Busnel, and J.-P. Michel. The �rst moves of the AFMASTERworkstation. Advanced Robotics, 14(7) :639�649, January 2001.

[43] M. Gervautz and W. Purgathofer. A Simple Method for Color Quantization : OctreeQuantization. Graphics Gems, pages 287�293, 1990.

[44] S.-T. Goh and K.-L. Tan. MOSAIC : A fast multi-feature image retrieval system. Data &Knowledge Engineering, 33(3) :219�239, June 2000.

[45] B. Gosselin. Implantation d'un algorithme d'appariement de segments issus d'images sté-réoscopiques. Technical report, Conservatoire National des Arts et Métiers - Institut In-formatique d'Entreprise, 2003.

[46] P. Gros, G. Mclean, R. Delon, R. Mohr, C. Schmid, and G. Mistler. Utilisation de la cou-leur pour l'appariement et l'indexation d'images. Thème 3 : Interaction homme-machine,images, données, connaissances 3269, Institut National de Recherche en Informatique et enAutomatique (INRIA), Rhônes-Alpes, septembre 1997.

[47] M. Haelewyn. Site internet : http ://marc.haelewyn.free.fr/index.htm.[48] R. M. Haralick. Statistical and Structural Approaches to Texture. Proc. of the IEEE,

67(5) :786�804, May 1979.[49] M. Hashima, F. Hasegawa, S. Kanda, T. Maruyama, and T. Uchiyama. Localization and

Obstacle Detection for a Robot for Carrying Food Trays. In IEEE Int'l Conf. on IntelligentRobots and Systems, pages 345�351, September 1997.

195

Bibliographie

[50] P. S. Heckbert. Color Image Quantization for Frame Bu�er Display. ACM ComputerGraphics, 16 :297�307, 1982.

[51] M. Hillman. Rehabilitation Robotics from past to present - a historical perspective. InThe Eighth International Conference on Rehabilitation Robotics - ICORR, Daejeon, Korea,April 2003.

[52] P. Hoppenot. Contribution de la robotique mobile à l'asssitance aux personnes handicapées.PhD thesis, Université d'Evry, Evry, France, novembre 1997.

[53] P. Hoppenot, M. Benreguieg, H. Maaref, E. Colle, and C. Barret. Control of a medicalaid mobile robot based on a fuzzy navigation. In Symposium on Robotics and Cybernetics,pages 388�393, Lille, France, July 1996. IEEE.

[54] P. Hoppenot, E. Colle, O. Ait Aider, and Y. Ribarczyck. ARPH - Assistant Robot for Han-dicapped People - A pluridisciplinary project. In Roman'2001, pages 624�629, Bordeaux -Paris, France, 2001. IEEE.

[55] J. Huang, S. R. Kumar, M. Mitra, W.-J. Zhu, and R. Zabih. Image Indexing Using ColorCorrelograms. In Proc. of the IEEE conf. on Computer Vision and Pattern Recognition,pages 762�768, 1997.

[56] ITU. ITU-R Recommendation BT.500-10 : Methodology for the subjective assessment ofthe quality of television pictures. Technical report, ITU, Geneva, Switzerland, 2000.

[57] J.-M. Jolion. Indexation d'images : nouvelle problématique ou vieux débat ? Rapport derecherche 9805, INSA, Lyon, octobre 1998.

[58] S. D. Jones, C. Andresen, and J. L. Crowley. Appearance Based Processes for Visual Navi-gation. In IEEE Int'l Conf. on Intelligent Robots and Systems, pages 551�557, September1997.

[59] T. Jones. RAID - Towards greater independence in the o�ce and home environment. InICORR, pages 201�206, Stanford, United-States, 1999.

[60] M. R. Kabuka and A. E. Arenas. Position Veri�cation of a Mobile Robot Using StandardPattern. IEEE J. on Robotics and Automation, 3(6) :505�516, December 1987.

[61] L. P. Kaelbling, M. L. Littman, and A. R. Cassandra. Planning and acting in partiallyobservable stochastic domains. Arti�cial Intelligence, (101), 1998.

[62] M. S. Kankanhalli, B. M. Mehtre, and J. K. Wu. Cluster-based color matching for imageretrieval. Pattern Recognition, 29(4) :701�708, 1996.

[63] J. Ketterer, J. Puzicha, M. Held, M. Fischer, J. M. Buhmann, and D. Fellner. On spatialquantization of color images. In Proc. of European Conference on Computer Vision, pages563�577, Freiburg, Germany, 1998.

[64] D. Kim and R. Nevatia. Recognition and Localization of Generic Objects for IndoorNavigation Using Fonctionnality. Image and Vision Computing, 16(11) :729�743, August1998.

[65] J. Kittler, M. Hatef, and R. Duin. Combining classi�ers. In Proc. of the 13th Int. Conf.on Pattern Recognition, volume 2, pages 897�901, 1996.

196

Bibliographie

[66] A. Kosaka and A. C. Kak. Fast Vision-Guided Mobile Robot Navigation Using Model-Based Reasoning and Prediction of Uncertainties. Computer Vision, Graphics, and ImageProcessing - Image Understanding, 56(3) :271�329, 1992.

[67] E. Krotkov. Mobile robot localization using a single image. In Proceedings of the IEEEInternational Conference on Robotics and Automation (ICRA'89), volume 2, pages 978�983, May 1989.

[68] B. J. Kuipers and Y.-T. Byun. A Robot Exploration and Mapping Strategy Based on aSemantic Hierarchy of Spatial Representation. In J. Robotics and Autonomous Systems,pages 47�63, 1991.

[69] S. Kullback. Information theory and statistics. John Wiley and Sons, New-York, 1959.[70] M. Kunt. Traitement numérique des images, volume 2 of Traitement de l'information, Col-

lection Electricité. Presses Polytechniques et Universitaires Romandes, Lausanne, Suisse,1993.

[71] H. H. Kwee. The MANUS Wheelchair-Borne Manipulator : System Review and FirstResults. In IARP Workshop on Domestic and Medical & Healthcare Robotics, Newcastle,United-Kingdom, 1989.

[72] D. Lafont. Applications de l'analyse d'images couleur à la caractérisation du clinker. InEcole de printemps - Images Couleur, Pau, France, mars 2001.

[73] P. Lambert, G. Mauris, N. Perrot, and I. Ioannou. Image processing using fuzzy techniquesfor sausage quality evaluation. In QCAV, pages 253�258, Le Creusot, France, 2001.

[74] André Lange. Site internet : http ://histv2.free.fr/nipkow/nipkow2.htm.[75] M.-C. Larabi, C. Montagne, S. Lelandais, A. Smolarz, C. Fernandez-Maloigne, and

P. Cornu. Quanti�cation Couleur : Comparaisons Objectives et Subjectives de Di�érentsAlgorithmes. Revue de Traitement du Signal : édition spéciale sur l'Image NumériqueCouleur, 2005.

[76] M. C. Larabi, N. Richard, and C. Fernandez. A New Quanti�cation Method under Co-lorimetric Constraints. In IS&T Conf. on Color in Graphics, Image and Vision, pages412�415, Poitiers, France, 2002.

[77] M.-C. Larabi, N. Richard, and C. Fernandez-Maloigne. A fast color quantization using amatrix of local pallets. In Proc. of the IEEE Applied Imagery Pattern Recognition WorkshopAIPR'2000, Washington, USA, October 2000.

[78] P. Lasserre, R. Murieta Cid, and M. Briot. Le modèle nominatif de régions : segmentationcouleur et identi�cation de régions par analyse de couleur et de texture. In 16ème colloqueGRETSI, pages 39�42, Grenoble, France, septembre 1997.

[79] S. Lelandais, A. Chaari, A. Smolarz, C. Montagne, and B. Jacquin. A new color invariantfor image retrieval using the baker's transfomation. In Beijing International Conferenceon Imaging (BICI), May 2005.

[80] H. Loaiza. Capteur vertical de vision stéréoscopique multicon�guration pour la localisationd'un robot mobile. PhD thesis, Université d'Evry-Val d'Essonne, novembre 1999.

197

Bibliographie

[81] H. Loaiza, A. Suarez, E. Gonzalez, S. Lelandais, and C. Moreno. Real MagiCol : Complexbehavior through simple behavior oriented commands. In The second Robocup Workshop,pages 475�482, La Villette, Paris, July 1998.

[82] H. Loaiza, J. Triboulet, S. Lelandais, and C. Barat. Matching segments in stereoscopicvision. IEEE Instrumentation and Measurement Magazine, 4(1) :37�42, March 2001.

[83] W.-Y. Ma and B. S. Manjunath. NeTra : A Toolbox for Navigating Large Image Databases.Multimedia Systems, 7(3) :184�198, 1999.

[84] B. MacEvoy. Site internet : http ://www.handprint.com/hp/wcl/color7.html.[85] R. M. Mahoney. The Raptor Wheelchair Robot System. In Integration of Assistive Tech-

nology in the Information Age, pages 135�141, Netherlands, 2001. Ed. M. Mokhtari.[86] P. Marty-Mahé, P. Loisel, and D. Brossard. Color images analysis method to study the

heterogeneities in the tissues in farmed sea-trout. In QCAV, pages 245�252, Le Creusot,France, 2001.

[87] Y. Matsumoto, M. Inaba, and H. Inoue. Visual Navigation Using View-Sequenced RouteRepresentation. In IEEE Int'l Conf. on Robotics and Automation, volume 1, pages 83�88,April 1996.

[88] D. McIntyre. Colour Blindness : Causes and E�ects. Dalton Publishing, Chester, 2002.[89] M. Meng and A. C. Kak. NEURO-NAV : A Neural Network Based Architecture for Vision-

Guided Mobile Robot Navigation Using Non-Metrical Models of the Environment. In Proc.of the IEEE International Conference on Robotics and Automation (ICRA-1993), volume 2,pages 750�757, 1993.

[90] C. Montagne. Extraction d'indices visuels pour le guidage d'une base mobile dans unenvironnement domestique coloré. Master's thesis, Université d'Evry, Evry, Juin 2001.

[91] C. Montagne and S. Lelandais. Adaptive color quantization using the baker's transform.In CGIV, pages 353�358, Aachen, Germany, April 2004. IS&T.

[92] C. Montagne, S. Lelandais, A. Chaari, and M. Ben Ahmed. Invariant couleur basé sur latransformation du boulanger - Application à la localisation globale d'un robot d'intérieur.In Conférence Internationale : Sciences Electroniques, Technologies de l'Information et desTélécommunications (SETIT), Sousse, Tunisie, mars 2005.

[93] C. Montagne, S. Lelandais, H. Loaïza, C. N'Zi, and J. Triboulet. Is color information usefulfor extraction of segments ? In SETIT, Sousse, Tunisia, March 2003.

[94] C. Montagne, S. Lelandais, A. Smolarz, P. Cornu, M.-C. Larabi, and C. Fernandez-Maloigne. Adaptive color quantization using the "baker's transformation". Journal ofElectronic Imaging, 2005. Accepté en attente de parution.

[95] C. Montagne, S. Lelandais, J. Triboulet, and C. N'Zi. How to choose the best color spacefor the guidance of an indoor robot ? In CGIV, Poitiers, France, April 2002. IS&T.

[96] C. Montagne, S. Lelandais, J. Triboulet, and A. Smolarz. New color features for in-doorimage processing. In SETIT, Sousse, Tunisia, March 2004.

[97] C. Montagne, A. Smolarz, S. Lelandais, and P. Cornu. Réduction adaptative des couleursau moyen de la �transformée du boulanger�. In SETIT, Sousse, Tunisia, March 2004.

198

Bibliographie

[98] M. Montemerlo, S. Thrun, D. Koller, and B. Wegbreit. FastSLAM : A factored solutionto the simultaneous localization and mapping problem. In The AAAI National Conferenceon Arti�cial Intelligence, Edmonton, Canada, 2002.

[99] H. Moravec and A. Elfes. High resolution maps from wide angular sensors. In Proc. of theIEEE International Conference on Robotics and Automation (ICRA-1985), pages 116�121,1985.

[100] P. Mulhem, J. Gensel, and H. Martin. Modèles pour résumés adaptatifs de vidéos. In-génierie des Systèmes d'Information, numéro spécial �Base de Données et Multimédia�,7(5-6) :91�118, 2002.

[101] C. Nastar. Indexation et recherche d'images : enjeux, méthodes et perspectives. CongrèsIDT, 1999.

[102] W. Niblack, R. Barber, W. Equitz, M. Flickner, E. H. Glasman, D. Petkovic, P. Yanker,C. Faloutsos, and G. Taubin. The QBIC Project : Querying Images by Content, UsingColor, Texture, and Shape. In Storage and Retrieval for Image and Video Databases(SPIE), volume 1908, pages 173�187, February 1993.

[103] Y.-I. Ohta, T. Kanade, and T. Sakai. Color Information for Region Segmentation. Com-puter Graphics and Image Processing, 13 :222�241, 1980.

[104] M. T. Orchard and C. A. Bouman. Color quantization of images. IEEE Transactions onSignal Processing, 39(12) :2677�2690, December 1991.

[105] S. Otmane, E. Colle, M. Mallem, and P. Hoppenot. Disabled people assistance by a semi-autonomous robotic system : use of virtual reality to enhance human performances. In 4thWorld MultiConf. On Systemics, Cybernetics and Informatics (SCI'2000), volume 3, pages684�689, Orlando, USA, July 2000.

[106] J. Pan, D. J. Pack, A. Kosaka, and A. C. Kak. FUZZY-NAV : A Vision-Based RobotNavigation Architecture Using Fuzzy Inference for Uncertainty-Reasoning. In Proc. of theIEEE World Congress on Neural Networks, volume 2, pages 602�607, 1995.

[107] G. Pass and R. Zabih. Histogram re�nement for content-based image retrieval. In IEEEWorkshop on Applications of Computer Vision, pages 96�102, 1996.

[108] J. Pineau, M. Montemerlo, M. Pollack, N. Roy, and S. Thrun. Probabilistic control ofhuman robot interaction : Experiments with a robotic assistant for Nursing Homes. In Thesecond IARP/IEEE/RAS Joint Workshop on Technical Challenges for Robots in HumanEnvironments (DRHE), October 2002.

[109] M. Pollack, S. Engberg, J. T. Matthews, S. Thrun, L. Brown, D. Colbry, C. Orosz, B. Peint-ner, S. Ramakrishnan, J. Dunbar-Jacob, C. McCarthy, M. Montemerlo, J. Pinneau, andN. Roy. Pearl : A Mobile Robotic Assistant for the Elderly. In Workshop on Automationas Caregiver : the Role of Intelligent Technology in Elder Care (AAAI), August 2002.

[110] T. Pouchin. Site internet : http ://tpouchin.club.fr/index.htm.[111] A. Pruski, Y. Morere, and M. Ennaji. Le fauteuil intelligent VAHM-3 : architecture,

commande et premiers résultats. Journal Européen des Systèmes Automatisés, 37(7-8) :911�927, 2003.

199

Bibliographie

[112] S. Quinlan and O. Khatib. Elastics bands : Connecting Path Planning and Control. InTransactions on Robotics and Automation. IEEE, 1993.

[113] B. D. Ripley. Pattern recognition and neural networks. Cambridge University Press, 1996.[114] Y. Rubner, C. Tomasi, and L. J. Guibas. A metric for ditributions with applications to

image databases. In 6th International Conference on Computer Vision (ICCV), pages59�66, Bombay, India, January 1998. IEEE.

[115] Y. Rui, T. S. Huang, and S.-F. Chang. Image Retrieval : Current Techniques, PromisingDirections, and Open Issues. Journal of Visual Communication and Image Representation,10(1) :39�62, March 1999.

[116] Y. Rybarczyck. Etude de l'appropriation d'un système de téléopération dans l'optique d'unecoopération homme-machine. PhD thesis, Université d'Evry, Evry, France, mars 2004.

[117] J. Santos-Victor, G. Sandini, F. Curotto, and S. Garibaldi. Divergent Stereo for RobotNavigation : Learning from Bees. In Proc. of IEEE CS Conf. on Computer Vision andPattern Recognition, 1993.

[118] C. Schae�er and T. May. Care-O-bot : "A System for Assisting Elderly or Disabled Personsin Home Environment". In Association for the Advancement of Assistive Technology inEurope Conference, pages 340�345, Düsseldorf, Germany, 1999.

[119] R. D. Schraft, B. Graf, A. Traub, and D. John. A Mobile Robot Platform for Assistanceand Entertainment. Industrial Robot Journal, 28 :29�34, 2001.

[120] R. D. Schraft, E. Helms, M. Hans, and S. Thiemermann. Man-Machine-Interaction andCo-Operation for Mobile and Assisting Robots. In EIS, Madeira, Portugal, 2004.

[121] J. Serra. Un modèle de perception de la lumière. In Journée Couleur, Poitiers - France,octobre 2004.

[122] I. S. Sethi and N. Patel. A Statistical Approach to Scene Change Detection. In Conferenceon Storage and Retrieval for Image and Video Databases III, volume 2420, pages 329�338.IS&T/SPIE, February 1995.

[123] G. Sharma, editor. Digital Color Imaging Hanbook. CRC Press, 1st edition, December2002.

[124] G. Sharma and H.J. Trussel. Digital color imaging. IEEE Transactions on Image Proces-sing, 6(7) :901�932, July 1997.

[125] R. Simmons and S. Koenig. Probabilistic Robot Navigation in Partially Observable Envi-ronments. In Proc. of the International Joint Conference on Arti�cial Intelligence, pages1080�1087, August 1995.

[126] J. R. Smith and S.-F. Chang. Local color and texture extraction and spatial query. In In-ternational Conference on Image Processing (ICIP), volume 3, pages 1011�1014, Lausanne,Switzerland, September 1996. IEEE.

[127] J. R. Smith and S.-F. Chang. VisualSEEk : A Fully Automated Content-Based ImageQuery System. In ACM Multimedia, pages 87�98, 1996.

[128] R. Smith and P. Cheeseman. On the Representation and Estimation of Spatial Uncertainty.The International Journal of Robotics Research, 5(4) :56�68, 1987.

200

Bibliographie

[129] A. Smolarz. Distribution des nuances locales de niveaux de gris pour la caractérisationd'images. XXXIVèmes Journées de Statistiques, mai 2002. Louvain-la-Neuve, du 13 au 17.

[130] M. A. Stricker and M. Orengo. Similarity of Color Images. In Conference on Storage andRetrieval for Image and Video Databases III, volume 2420, pages 381�392. IS&T/SPIE,February 1995.

[131] K. Sugihara. Some Location Problems for Robot Navigation Using a Single Camera. InComputer Vision, Graphics, and Image Processing, pages 112�129, 1988.

[132] C. Sun and W. G. Wee. Neighboring Gray Level Dependence Matrix for Texture Clas-si�cation. Computer Vision, Graphics, and Image Processing (CVGIP), 23(3) :341�352,September 1983.

[133] M. J. Swain and D. H. Ballard. Color indexing. International Journal of Computer Vision,7(1) :11�32, 1991.

[134] J.-C. Terrillon, Y. Niwa, and K. Yamamoto. On the selection of an e�cient chrominancespace for skin color-based image segmentation with an application to face detection. InQCAV, pages 409�414, Le Creusot, France, 2001.

[135] S. Thrun. Learning metric-topological maps for indoor mobile robot navigation. Arti�cialIntelligence, 99(1) :21�71, 1999.

[136] M. Topping and J. Smith. The development of Handy 1, a rehabilitation robotic systemto assist the severly disabled. Industrial Robot, 25(5) :316�320, 1998.

[137] M. Trabelsi, N. AitOufroukh, and S. Lelandais. New Objects Seizure Method in MobileRobotic Using a Visual Servoing and Neural Network Classi�cation. In IEEE CIRA,Helsinki, Finland, June 2005.

[138] A. Tremeau, C. Fernandez-Maloigne, and P. Bonton. Image numérique couleur - De l'ac-quisition au traitement. Sciences de l'Ingénieur. Dunod, France, janvier 2004.

[139] A. Trémeau, C. Charrier, and É. Favier. Quantitative description of image distorsionslinked to compression schemes. In Int. Conf. on the Quantitative Description of MaterialsMicrostructures, Varsovie, Pologne, 1997.

[140] A. Trémeau and B. Gérin. Utilisation de la matrice de cooccurrence couleur pour l'analysede texture. In Colloque Automatique - Génie Informatique - Image, pages 303�306, 1996.

[141] T. Tsumura. Survey of Automated Guided Vehicle in Japanese Factory. In Proc. of Int'lConf. on Robotics and Automation, pages 1329�1334, April 1986.

[142] I. Ulrich and I. Nourbakhsh. Appearance-based place recognition for topological localiza-tion. In Proc. of the IEEE International Conference on Robotics and Automation (ICRA-2000), pages 1023�1029, 2000.

[143] N. VanDenBroucke. Segmentation d'images couleur par classi�cation de pixels dans desespaces d'attributs colorimètriques adaptés. Application à l'analyse d'images de football.Thèse de doctorat, Université de Lille 1, décembre 2000.

[144] N. VanDenBroucke, L. Macaire, and C. Vieren. Suivi automatique de personnes en mouve-ment par analyse d'images couleurs successives. Application au suivi de joueurs de football.In 16ème colloque GRETSI, pages 917�920, Grenoble, France, septembre 1997.

201

Bibliographie

[145] M. VanderLoos. Design and Evaluation of a Vocational Desktop Robot. In RESNA 12thAnnual Conference, New-Orleans, United States, 1989.

[146] M. VanderLoos, S. Michalowski, and L. Leifer. Design of an Omnidirectional Mobile Robotas a Manipulation Aid for the Severly Disabled. Interactive Robotic Aids, (37), 1986.

[147] N. Vasconcelos and M. Kunt. Content-Based Retrieval from Image Databases : CurrentSolutions and Future Directions. In International Conference in Image Processing (ICIP),volume 3, pages 6�9, Thessaloniki, Greece, October 2001. IEEE.

[148] H. Wandosell, J. Manuel, and B. Graf. Non-Holonomic Navigation System of a Walking-Aid Robot. In International Workshop on Robot and Human Interactive Communication -ROMAN, Berlin, Germany, September 2002. IEEE.

[149] G. Wyszecki and W. S. Stiles. Color Science : Concepts and Methods, Quantitative Dataand Formulae. John Wiley & sons, 2nd edition, 1982.

[150] Z. Xiang. Color Image Quantization by Minimizing the Maximum Intercluster Distance.ACM Transactions on Graphics, 16(3) :260�276, July 1997.

202

Glossaire

AFM : Depuis de nombreuses années se développe l'aide aux personnes sou�rant d'un handicapmoteur. Un organisme, en particulier, est à la pointe de cette lutte : l'Association Françaisecontre les Myopathies (site internet : www.afm-france.org). Cette association, régie par la loidu 1er juillet 1901, fut créée en 1958 par des malades et leurs parents, et reconnue d'utilitépublique en 1976. Son objectif est de vaincre les maladies neuromusculaires. L'AFM s'estdonc �xée deux missions prioritaires :1. guérir les maladies neuromusculaires ;2. réduire le handicap qu'elles provoquent.

Pour remplir ces deux missions, l'AFM organise, depuis 1987, une manifestation populaireet nationale : le Téléthon. Cette opération de collecte de fonds et de sensibilisation dugrand public combine une émission télévisée de plus de vingt-quatre heures et des dizainesde milliers de manifestations bénévoles dans toute la France. Il est à noter que cette opé-ration est quasiment l'unique moyen dont dispose l'AFM pour collecter des fonds. Grâceà ces ressources et à divers partenariats industriels ou institutionnels, l'association peutintervenir dans divers domaines dont la recherche médicale, la reconnaissance des maladiesneuromusculaires, et le développement de solutions techniques mettant en jeu notammentla robotique mobile.

APPROCHE (association) : Association pour la Promotion des Plates-formes RObotiquesConcernant les personnes HandicapEes.

ARPH : Assistance Robotique (ou Robotisée) aux Personnes Handicapées.CHM (ou CH-M) : Coopération homme-machine.CEA : Commissariat à l'Energie Atomique. Les activités du CEA ne concernent pas uniquement

le nucléaire mais de nombreux domaines industriels dont la robotique.CIE : Commission Internationale de l'Eclairage (site internet : www.cie.co.at). C'est l'organisme

o�ciel qui encadre, régit et développe les sciences et arts en rapport avec la lumière dontla colorimétrie.

DAO : Dessin Assisté par Ordinateur.Degré(s) de liberté : Possibilité(s) de mouvement dans l'espace. Par dé�nition, pour l'être

humain qui se meut dans un espace tridimensionnel, il existe six degrés de liberté : troisen translation (avance, dérive et ascension) et trois en rotation (roulis, tangage et lacet).Cependant, en robotique, le nombre de degrés de liberté dépend des liaisons cinématiquesdu système. Par exemple, le bras Manus se compose de six liaisons �pivot� (axe de rotationunique) et a donc six degrés de liberté qui sont tous des rotations.

203

Glossaire

Discrétisation (numérique) : De manière simple, c'est le passage d'un espace de valeurscontinues à un espace ayant un nombre d'éléments �nis tel que l'illustre la �gure sui-vante.Sur cette �gure, f1 et f2 sont deux fonctions continues (quelque soit x, une valeury existe). Les discrétiser amène à réduire ces deux fonctions à deux suites de points bienprécis et, dans ce cas, une valeur y n'existe que pour quelques x. Suivant le pas séparantchaque point, la discrétisation peut tendre plus ou moins vers la fonction d'origine.

1F

F2

f1

f2

y

x

y

x

( a ) ( b )FIG. � Discrétisation de deux fonctions f1 et f2.

Disque de Nipkov : Système mécanique d'analyse d'images permettant la décomposition d'uneimage sous forme de lignes. Le système est basé sur un disque perforé tournant à 25 tourspar seconde ; les trous, au nombre de trente, sont équidistants et disposés en spirale. Achaque tour, chaque trou explore un arc de cercle de l'image qui équivaut à une ligne.L'inventeur de ce dispositif est un ingénieur allemand : Paul Nipkov (1860-1940). Celui-cidemande le 6 janvier 1884 le brevet d'invention du disque perforé qui porte son nom. Neufjours plus tard, il reçoit le brevet n◦ 30105 lui donnant l'autorisation de construire un�télescope électrique� ; ce brevet est le premier brevet relatif à un appareil de télévision.Le dispositif illustré à la �gure ci-dessous se compose comme suit : à l'émission, une cel-lule photélectrique disposée derrière le disque récupère la lumière passant par les trous etla transforme en signal électrique ; à la réception, de manière similaire, un tube au néonconvertit le signal électrique en lumière et un second disque, tournant à la même vitesseque le premier, restitue l'image.

FIG. � �Téléscope électrique� utilisant des disques de Nipkov. Tiré de [74].

A la suite de l'attribution de ce brevet, plusieurs inventions de divers chercheurs mèneront

204

Glossaire

peu à peu à la télévision moderne �électronique�. Ainsi, le disque de Nipkov sera utilisé parl'Écossais John Logie Baird pour ce qui est considéré comme la première démonstration dela télévision, qui eut lieu en 1925 dans le magasin londonien Selfridge's.

Distal(e) : En parlant d'une partie de structure anatomique, désigne ce qui est le plus éloignédu centre du corps par opposition à proximal(e) qui désigne ce qui est le plus proche ducentre du corps.

Domotique : Ensemble de techniques adjoignant à celles du bâtiment les ressources de l'élec-tronique, de l'informatique et des télécommunications pour améliorer l'habitat humain.

Espace RVB 24 bpp : Espace colorimétrique fréquemment utilisé en informatique. Les cou-leurs y sont représentées par leurs quantités (ou intensités) de rouge, de vert et de bleu.Chacun de ces trois axes est codé sur 8 �bits par pixel�, soit 28 = 256 valeurs possibles.De fait, une couleur est codée sur 24 bpp ce qui permet de dire qu'au sein de cet espace224 = 16.277.216 couleurs se côtoient.

Holonome (robot) : Un robot holonome ou robot omnidirectionnel est un robot qui possèdetrois degrés de liberté sur un plan : deux translations (avance ou recule, va vers la droite ouvers la gauche) et une rotation (tourne vers la droite ou vers la gauche). Ils peuvent être àpattes, rampants, ou à trois ou quatre roues omnidirectionnelles. En opposition, les robotsnon-holonomes ont deux roues motrices di�érentielles et ne possèdent que deux degrés deliberté sur un plan : une translation (avance ou recule) et une rotation (tourne vers la droiteou vers la gauche).

IHM : Interface Homme-Machine. Le plus souvent, une telle interface est un logiciel doté d'élé-ments graphiques tels que des cadres, des boutons, des voyants, et cætera par lesquelsl'utilisateur peut commander une machine de manière simple et intuitive.

Indexation et recherche d'images : Fait de classer des images selon certaines caractéris-tiques dans une base d'images (indexation). Fait également d'extraire une ou des imagesde cette base en réponse à une image dite requête (recherche). Exemple : soit une based'images d'animaux et une image requête d'une girafe, l'indexation et la recherche d'imagespermettent de retrouver dans la base toutes les images représentant une girafe.

Isaac Newton (1642-1727) : Isaac Newton naquit le jour de Noël 1642. De famille humble,il se montra très inventif dès son enfance. Entrant à l'université de Cambridge en 1660,il rencontra un professeur et ami qui sera déterminant dans sa formation, Isaac Barrow.Newton maîtrise rapidement les mathématiques de son époque. Mais la grande peste (1665-1666) l'oblige à retourner dans son village natal de Woolsthorpe, ce qui lui donne dutemps pour ses recherches mathématiques et physiques. Les lois du mouvement des astres(attraction universelle) et de l'optique sont brillamment abordées et Newton découvre lecalcul di�érentiel grâce à sa méthode des �uxions (x+dx) en�n, presque, puisqu'elle a étéinventée par son grand rival Leibniz. Grand rival car celui-ci et Newton se querellerontviolemment sur la paternité de l'invention de l'analyse di�érentielle jusqu'à la �n de leurvie. La disparition de Newton le 20 mars 1727 provoque un deuil scienti�que rarement égaléen Angleterre. Il est d'ailleurs inhumé à l'abbaye de Westminster.

LSC : Laboratoire Systèmes Complexes.

205

Glossaire

Préhension (humaine) : Fait de prendre ou saisir un objet avec la main.Primitives : Dans une image, ce sont des indices visuels constitués de pixels, présentant des

propriétés similaires, et porteurs d'une information utile. Ce peut être des points, descontours, ou des régions. On peut également parler de repère ou d'amer.

Quanti�cation ou réduction (couleur) : Fait de changer les couleurs d'une image de tellemanière que le nombre total de couleurs dans l'image soit réduit à un petit nombre (parexemple : 256 couleurs).

Référentiel (ou repère) caméra / image / monde : Respectivement, référentiel des coor-données 1◦) lié à la caméra (Rc), 2◦) d'une image (Ri), 3◦) absolues lié à l'environnement(Rm).

cx

yc

zc

Rc

Ri

xm

ym

zm

Rm

Distance focale

Plan image

Axe optique

Centre optique

u

v

FIG. � Référentiels monde, caméra et image.

Segmentation : Dans ce manuscrit, fait de créer des segments de droite. Autrement, ce termedésigne plutôt le fait de créer des régions homogènes.

Triangulation : 600 ans avant notre ère, pour évaluer la distance d'un bateau éloigné sur lamer, Thalès inventa la méthode de la triangulation. Deux observateurs A et C sur le rivageobservent chacun la direction du bateau B et mesurent les angles a et c que font chacunedes directions AB et CB avec le segment de droite AC. Comme ils savent mesurer leurdistance mutuelle AC, ils sont capables de reconstruire le triangle ABC, connaissant AC

et les deux angles adjacents, a et c. Ils peuvent donc connaître AB ou CB qui sont lesdistances au bateau.

C

B

A

ca

FIG. � La triangulation.

206

Annexes

207

Annexe A

Compléments sur les espaces couleurs

A.1 Espaces de primaires

A.1.1 Espaces RVBA.1.1.1 Espaces RVB et illuminants

Voici les valeurs de di�érents primaires et illuminants dans l'espace xyz. Les illuminants D

correspondent à la lumière du jour ; l'illuminant D65 correspond ainsi à la moyenne des lumièresdurant la journée et le nombre 65 fait référence à la température de couleur de l'illuminant qui estégale à 6500K. L'illuminant C correspond à une source de lumière dont le niveau d'illuminationest équivalent à celui du ciel. L'illuminant B, qui n'est plus utilisé depuis 1986, correspondaità la lumière du soleil à midi. L'illuminant A correspond à une lampe à �lament de tungstènede 500W . Il existe également des illuminants F correspondant à des sources de lumière de type�uorescent. En�n, l'illuminant E est un illuminant théorique équiénergétique ne correspondantà aucune source lumineuse réelle.

Tab. A.1 � Valeurs de primaires et d'illumimants dans l'espace xyz.Primaires x y zRCIE 0,735 0,265 0,000VCIE 0,274 0,717 0,009BCIE 0,167 0,009 0,824RNTSC 0,670 0,330 0,000VNTSC 0,210 0,710 0,080BNTSC 0,140 0,080 0,780REBU 0,640 0,330 0,030VEBU 0,290 0,600 0,110BEBU 0,150 0,060 0,790Illuminant x y zA 0,448 0,407 0,145C (NTSC) 0,310 0,316 0,374D65 (EBU) 0,313 0,329 0,358E (CIE) 0,333 0,333 0,333

209

ANNEXE A : Compléments sur les espaces couleurs

A.1.1.2 Système NTSC RVB

Ce système a été établi par le National Television System(s) Committee - NTSC -. C'est lesystème standard des récepteurs de télévision couleur aux Etats-Unis, des moniteurs d'ordina-teurs et des caméras vidéos. De fait, dans le domaine informatique, une couleur, dont les troiscomposantes varient et sont codées sur une échelle de 8 bits par canal, correspond à une dis-crétisation de cet espace1. Les téléviseurs couleur des Etats-Unis utilisent un tube cathodiquedont les phosphores émettent dans un rouge Rn, un vert Vn et un bleu Bn du spectre visiblequi servent de primaires au système. Le blanc de référence C a été choisi de manière à ce queles trois coe�cients de pondération soient égaux lors de l'expérience d'égalisation des couleurs.Le tableau A.2 présente les valeurs du tristimulus RVB ainsi que les valeurs réduites pour lesprincipales couleurs exprimées dans le référentiel du récepteur NTSC. Les valeurs réduites desniveaux de gris (noir à blanc) valent toujours 1/3.

Tab. A.2 � Tristimuli NTSC usuels.Rouge Jaune Vert Cyan Bleu Magenta Blanc NoirR 1,0 1,0 0,0 0,0 0,0 1,0 1,0 0,0V 0,0 1,0 1,0 1,0 0,0 0,0 1,0 0,0B 0,0 0,0 0,0 1,0 1,0 1,0 1,0 0,0r 1,0 0,5 0,0 0,0 0,0 0,5 0,3 0,3v 0,0 0,5 1,0 0,5 0,0 0,0 0,3 0,3b 0,0 0,0 0,0 0,5 1,0 0,5 0,3 0,3

A.1.1.3 Système CMJ

L'espace CMJ (cyan, magenta, jaune) est employé pour les processus d'impression couleur. Ene�et, les techniques utilisées dans ce domaine reposent sur la synthèse soustractive qui consisteà reproduire les couleurs par absorption de trois primaires. Ces primaires, le cyan, le magentaet le jaune, sont les couleurs complémentaires, respectivement, du rouge, du vert et du bleu(primaires de la synthèse additive). En informatique, les couleurs sont codées en RVB 24 bits etleur impression nécessite qu'elles soient transformées selon l'équation A.1. L'opération contrairequi consiste à passer de l'espace CMJ à un espace RVB n'a pas d'applications pratiques.

C

M

J

=

0 1 11 0 11 1 0

·

R

V

B

(A.1)

18 bits ⇔ 28 = 256 niveaux (de 0 à 255) ; 3 composantes ⇔ 3× 8 bits ⇔ 24 bits ⇔ 224 = 16777216 couleurs.

210


A.1.2 Espace XYZA.1.2.1 Conversion NTSC RVB vers CIE XYZ

La conversion du système NTSC RVB dans le système CIE XYZ s'e�ectue au moyen de larelation linéaire suivante : XCIE

YCIE

ZCIE

=

0, 607 0, 174 0, 2010, 299 0, 587 0, 1140, 000 0, 066 1, 117

·

RNTSC

VNTSC

BNTSC

(A.2)

A.1.2.2 Limitations de l'espace XYZL'espace XYZ est concis puisque, avec trois grandeurs, il permet de décrire presque tous

les stimuli colorés. Si certains stimuli sont exclus, cela est dû à la forme non triangulaire dudiagramme chromatique. En e�et, le principe d'additivité pondérée de trois couleurs (cf. annexeA.1.2.4) stipule qu'il est impossible de synthétiser une couleur se trouvant en dehors du triangleformé par trois couleurs de base. Une autre limitation est illustrée à la �gure A.1.

Fig. A.1 � Ellipses de MacAdam dans le plan de chrominance xy.

Dans cette représentation, chaque ellipse, dite de MacAdam, représente la plus petite dif-férence perceptible entre deux couleurs proches. Les couleurs à l'intérieur d'une ellipse sontconsidérées identiques alors que toute couleur à l'extérieur est jugée di�érente de celle se trou-vant au centre de l'ellipse. Ces ellipses, dont l'excentricité varie de 1 à 20, décrivent le caractère

211


non uniforme de la représentation chromatique dans le plan (x, y), au sens de la perception. Ellesindiquent que le pouvoir de discrimination des couleurs du système visuel humain est fort dansles tons bleus, moyen dans les tons rouges et faible dans les tons verts.

A.1.2.3 Composition du diagramme chromatiqueTrois zones, et donc trois catégories de couleur, peuvent être distinguées dans ce diagramme :� les couleurs monochromatiques, qui résultent de la décomposition de la lumière blancheau moyen d'un prisme (comme l'a fait Isaac Newton), sont représentées sur la partie nonrectiligne du contour (en forme de V renversé) pour une longueur d'onde allant de 380nm

à 780nm ;� la partie rectiligne du contour est appelée �droite des pourpres� mais les couleurs qui ysont représentées ne sont pas monochromatiques ;

� les couleurs résultant d'un mélange additif de couleurs de base sont représentées à l'intérieurdu contour.

A.1.2.4 Principes d'additivité pondéréDeux principes basés sur les barycentres mathématiques permettent d'obtenir des teintes à

partir de deux ou trois couleurs (ou stimuli lumineux).

A.1.2.4.1 Principe d'additivité pondérée de deux couleursA partir de deux stimuli P1 et P2, il est possible d'obtenir toutes les teintes P se trouvant

entre ces deux couleurs : P = αP1 + βP2, avec α = aa+b , et β = b

a+b .

A.1.2.4.2 Principe d'additivité pondérée de trois couleursExtension du précédent, ce principe permet de décrire toutes les couleurs P se trouvant à

l'intérieur d'un triangle, dont les sommets sont trois couleurs de base P1, P2 et P3, dans lediagramme chromatique : P = αP1 + βP2 + γP3, avec α = a

a+b+c , β = ba+b+c , et γ = c

a+b+c .

Fig. A.2 � Mélange additif pondéré de deuxcouleurs dans le plan xy.

Fig. A.3 � Mélange additif pondéré de troiscouleurs dans le plan xy.

212


A.1.2.5 Points particuliersDans le diagramme chromatique de la CIE, on considère certains points particuliers :� le point d'égale énergie correspond à une contribution égale des trois composantes de base

X, Y et Z selon le principe d'additivité pondérée des couleurs à l'intérieur d'un triangle.On a alors X = Y = Z et x = y = 1/3 ;

� la CIE a également normalisé trois autres sources blanches qui correspondent à la lumièredu jour, à un blanc �froid� et à un blanc �chaud�.

A.1.2.6 L'axe z ?La troisième valeur du système xyz étant dépendante des deux premières (z = 1−x−y), elle

n'apporte rien au diagramme chromatique et peut donc être ignorée. Néanmoins, si on souhaiteen tenir compte, cela reviendrait à représenter le diagramme xy tel qu'il est sur un plan passantpar les points (0, 0, 1), (0, 1, 0) et (1, 0, 0).

A.1.2.7 LuminositéSelon l'expérience d'égalisation des couleurs, il su�t de trois couleurs primaires pour synthé-

tiser presque tous les stimuli lumineux colorés. On peut donc en déduire que mathématiquementtrois variables indépendantes dé�nissent un espace de couleur. Ces trois variables peuvent êtreR, V et B ou bien X, Y et Z. Par contre, ce ne peut pas être x, y et z puisque z n'est pasune variable indépendante des deux autres. Pour que le diagramme de chrominance de la CIEdé�nisse un espace de couleur complet, il lui faut une troisième variable qui est la luminance.Cette variable permet d'éclaircir ou d'assombrir une couleur en modulant son �degré de noir�.Par exemple, en modulant du minimum au maximum la luminance du point d'égale énergie(x, y) = (1/3, 1/3), on passe du noir au blanc en passant par tous les niveaux de gris. L'axe desluminances n'est cependant pas uniforme : chaque couleur dé�nie par le couple (x, y) possèdeune luminance maximale Ymax = f(x, y) dont la représentation graphique tridimensionnelle, ap-pelée corps de couleur de la CIE, est montrée à la �gure A.4. La �gure A.5 décrit les courbesde niveau du corps de couleur. Elles sont graduées de 0 à 100 et chaque niveau correspond àune luminance donnée (Y = 0 est la luminance nulle, et Y = 100 est la luminance maximale).Par exemple : la couleur monochromatique (sur le contour en V) λ = 625nm qui correspondau couple (x = 0.7, y = 0.3) possède une luminosité maximale Ymax de 10. Il est ainsi possibled'assombrir cette couleur rouge, au moyen d'un diaphragme par exemple, mais il est impossiblede l'éclaircir sans en changer la couleur. Seul le blanc possède une luminance maximale de 100.

Remarque : la coloration utilisée dans le diagramme chromatique (cf. �gure 1.13) correspondpour chaque couleur (x, y) à la couleur de luminosité maximale.

A.1.2.8 Espace de primaires ou espace luminance-chrominanceSi le système XYZ, dont les trois composantes sont indépendantes, est un espace de primaires,

il n'en va pas forcément de même pour l'espace xyz qui en est la version normalisée. Ce dernierpeut en e�et se réduire à un système bidimensionnel xy (diagramme chromatique) auquel onadjoint une notion de luminance (corps des couleurs). Cette représentation correspond à celle

213


Fig. A.4 � Représentation du corps des cou-leurs de la CIE.

Fig. A.5 � Représentation des courbes deniveau du corps des couleurs.

des systèmes luminance-chrominance. D'ailleurs, il est possible de transformer x et y en variablesayant une interprétation physique plus intuitive à savoir la teinte et la saturation. La teinte (hueen anglais) est associée à la longueur d'onde. Elle varie du bleu (380nm) au rouge (780nm)(cf. �gure 1.1). La saturation exprime le �degré de blanc� se trouvant dans une couleur (paropposition à la luminance qui est le degré de noir). Elle est dé�nie sur le diagramme chromatiquecomme la distance entre une couleur donnée et le point d'égale énergie. Un point se trouvant surle contour est dit complètement saturé et est appelé couleur pure (couleur du spectre, couleurmonochromatique), tandis que le point d'égale énergie n'est pas saturé du tout. De même quex et y, la teinte et la saturation sont indépendantes et décrivent entièrement la chrominanced'une couleur. Ces deux variables peuvent être aussi considérées comme la représentation encoordonnées polaires du couple (x, y).

A.2 Systèmes luminance-chrominance

A.2.1 Système UVW CIE 1960

En 1960, pour parer les défauts du système XYZ, la CIE a adopté un nouveau système decoordonnées UVW également nommé UCS (Uniform Chromaticity Scale). Ce référentiel contientdeux composantes de chrominance U et V et une composante de luminance W , et il est possiblede les réduire en un triplet (u, v, w). Le but de ce nouveau référentiel est de faire correspondre,dans tout le plan de chrominance (u, v), un déplacement ds = (du, dv), de norme |ds| constante,avec une variation perceptible de couleur égale. Il s'agit donc de transformer les ellipses deMacAdam illustrées sur la �gure A.1 en des cercles de rayons constants. Le passage de l'espaceXYZ à l'espace UVW est une transformation linéaire et réversible :

214

A.2 Systèmes luminance-chrominance

Chrominance 1 : U = 2X3

Chrominance 2 : V = Y

Luminance : W = −X+3Y +Z2

La conversion du système NTSC RVB dans le système CIE UVW s'e�ectue au moyen de larelation linéaire : UCIE

VCIE

WCIE

=

0, 405 0, 116 0, 1330, 299 0, 587 0, 1140, 145 0, 827 0, 627

·

RNTSC

VNTSC

BNTSC

Le passage en variables réduites s'opère selon :

u =U

U + V + W; v =

V

U + V + W; w =

W

U + V + W

u + v + w = 1 ; w = 1− (u + v)

Il est aussi possible d'obtenir u et v à partir de x, y et z, ou de X, Y et Z :

u =4x

−2x + 12y + 3z=

4X

X + 15Y + 3Z

v =6y

−2x + 12y + 3z=

6Y

X + 15Y + 3Z

L'inconvénient lié à l'espace UVW provient du fait qu'un déplacement ds dont la perceptionest uniforme s'e�ectue dans le plan de chrominance uniquement et non dans l'espace complet :par conséquent, la luminosité des stimuli n'est pas prise en compte. Le système L*u*v* de 1976remédie à ce défaut.

A.2.2 Systèmes YCbCrCes systèmes ont été développés a�n d'assurer la compatibilité entre les téléviseurs couleur

et les téléviseurs noir et blanc, ce qui nécessite la séparation des composantes de luminance(niveaux de gris) et de chrominance (couleur). Le passage d'un système RVB à un systèmeYCbCr est linéaire mais les coe�cients à utiliser dépendent des normes télévisuelles (NTSC,PAL ou SECAM). Dans les téléviseurs, chacune des trois primaires est émise suivant une loi xγ .Avant d'e�ectuer le passage d'un système RVB (NTSC, PAL ou SECAM) à un système YCbCr, ilconvient de corriger de manière inversement proportionnelle (x 1

γ ) le signal. La correction gammadépend du standard utilisé : γ = 2.2 en NTSC, γ = 2.8 en PAL. Une telle opération n'est pasnécessaire si on manipule des valeurs non corrigées. Ensuite, il faut calculer la composante deluminance Y puis les deux composantes de chrominance Cb et Cr, en fonction de coe�cientsspéci�ques au standard considéré, à la manière des équations suivantes où R′, V ′ et B′ sont lescoordonnées corrigées.

Y = 0, 299R′ + 0, 587V ′ + 0, 114B′

Cb = a1(R′ − Y ) + b1(B′ − Y )

215


Cr = a2(R′ − Y ) + b2(B′ − Y )

Il existe autant de systèmes YCbCr que de standard de télévision : YIQ pour la normeNTSC, YUV pour la norme PAL et YDrDb pour la norme SECAM. Le système YIQ est le pluscommunément référencé dans le domaine de l'imagerie couleur. La transformation qui permet depasser du système NTSC RVB au système YIQ est la suivante :

Y = 0, 299R′ + 0, 587V ′ + 0, 114B′

I = 0, 74(R′ − Y )− 0, 27(B′ − Y )

Q = 0, 48(R′ − Y ) + 0, 41(B′ − Y )

Cette transformation peut aussi s'écrire sous forme matricielle : Y

I

Q

=

0, 299 0, 587 0, 1140, 596 −0, 273 −0, 3220, 212 −0, 522 0, 315

·

R′

V ′

B′

Il est aussi possible de décrire cet espace en coordonnées polaires :

L = Y

T = arctan(B′ − L

R′ − L)

S =√

(R′ − L)2 + (B′ − L)2

A.2.3 Systèmes antagonistesCes systèmes sont basés sur la théorie des couleurs opposées, selon laquelle l'information

couleur captée par le système visuel est transmise au cerveau sous la forme de trois signaux : unachromatique correspondant à l'opposition noir-blanc, et deux chromatiques correspondant auxoppositions vert-rouge et bleu-jaune. Le système AC1C2 [32] en est le plus utilisé en imageriecouleur. Il se base sur le système d'équation suivant :

A = a(α log(L) + β log(M) + γ log(S))

C1 = u1(log(L)− log(M))

C2 = u2(log(L)− log(S))

Les valeurs L, M et S forment un système de primaires de type RVB :� la primaire L a une longueur d'onde dominante monochromatique de 570nm ;� la primaire M a une longueur d'onde dominante monochromatique de 540nm ;� la primaire S a une longueur d'onde dominante monochromatique de 445nm.Les coe�cients a, α, β, γ, u1 et u2 sont variables. Ainsi le modèle de Faugeras a pour valeurs :

a = 22, 6, α = 0, 612, β = 0, 369, γ = 0, 019, u1 = 64 et u2 = 10.Une relation permet de passer du système XYZ au système LMS :

216

A.3 Systèmes perceptuels

L

M

S

=

0, 15514 0, 54312 −0, 03286−0, 15514 0, 45684 0, 032860, 00000 0, 00000 0, 00801

·

X

Y

Z

Comme pour les systèmes YCbCr , les systèmes antagonistes peuvent être décrit par un

système de coordonnées polaires.


A.3.1 Système L*u*v* CIE 1976

En 1976, la CIE a amélioré le système de coordonnées UVW en le transformant en un sys-tème L*u*v* qui tend à faire correspondre un déplacement ds = (dL∗, du∗, dv∗) de norme |ds|constante avec une variation perceptible de chrominance et de luminance égale. Le passage dusystème XYZ au système L*u*v* s'e�ectue au moyen des relations non linéaires suivantes :

Si Y

YW> 0.008856 Alors L∗ = 25(100

Y

YW)

13 − 16 ≈ 116(

Y

YW)

13 − 16

Sinon L∗ = 903.3Y

YW

u∗ = 13L ∗ (u′ − u′W )

v∗ = 13L ∗ (v′ − v′W )

Avec :u′ =

4X

X + 15Y + 3Z

u′W =

4XW

XW + 15YW + 3ZW

v′ =9Y

X + 15Y + 3Z

v′W =

9YW

XW + 15YW + 3ZW

Où XW , YW et ZW sont les composantes XYZ d'un blanc de référence (D65, A).Les ellipses de Mac Adam de la �gure A.1 se transforment dans ce référentiel perceptuellement

�uniforme� au sens de la chrominance et de la luminance en des objets plus circulaires commele montre la �gure A.6. De plus, dans le référentiel L*u*v*, on dé�nit la distance entre deuxcouleurs comme étant la norme du vecteur tridimensionnel qui relie ces deux points :

(∆s)2 = (∆L∗)2 + (∆u∗)2 + (∆v∗)2

217


Fig. A.6 � Ellipses de MacAdam dans le plan de chrominance u*v*.

A.3.2 Représentations géométriquesA.3.2.1 Espace de couleur de Munsell

Dans cette représentation, la couleur est décrite à l'intérieur d'un cylindre circulaire dont lestrois degrés de liberté dé�nissent la saturation (rayon), la teinte (angle) et l'intensité (hauteur).Ces trois grandeurs sont quanti�ées respectivement sur des échelles de 10 saturations, 10 × 10teintes et 10 intensités ce qui donne un ensemble de 10000 teintes (cf. �gure A.7). Ce systèmedescriptif est fréquemment utilisé pour la calibration des téléviseurs couleur et la CIE a normaliséla composante de teinte de manière à permettre le passage entre le diagramme chromatique etla représentation de Munsell (cf. �gure A.8).

Fig. A.7 � Système de représentation des couleurs de Munsell.

218


Fig. A.8 � Relation entre les teintes dé�nies par Munsell et le diagramme chromatique de laCIE.

A.3.3 Systèmes d'axes indépendantsPour pouvoir visualiser, avec 8 bits par canal, une image couleur du type X1X2X3, il convient

de prendre quelques précautions. En e�et, étant donné que ces axes sont ordonnés par quantitédécroissante, en fonction de l'information qu'ils portent, ces axes ont nécessairement une dyna-mique très di�érente. Pour maintenir la di�érence de dynamique établie entre les axes X1, X2 etX3, il convient d'appliquer une discrétisation non séparée des trois axes (rq : il est aussi conseilléd'appliquer cette même discrétisation à l'espace L ∗ a ∗ b∗). Soit Ti(i=1,2,3) la composante i d'unecouleur dans l'espace X1X2X3 : il faut la discrétiser sur une échelle 8 bits [0-255], mais pasindépendamment des deux autres axes. VanDenBrouke [143] propose la discrétisation suivante :

T ′i = (Ti −mi)

255∆max

+ 0

Avec ∆max = max(∆X1,∆X2,∆X3) qui est la plus grande des trois dynamiques (et donc l'élé-ment par lequel l'indépendance n'est pas assurée), ∆Xi = Mi−mi qui est la dynamique de l'axei (mi = min(Xi), Mi = max(Xi)). L'objectif de cette transformation est d'appliquer un pas dediscrétisation uniforme d'un axe à l'autre. Pour ce faire, le pas est calculé en fonction de la plusgrande dynamique des composantes couleur (∆max) et de la dynamique recherchée (ici, 8 bitspar canal, de 0 à 255).

219

Annexe B

Reconstruction 3D des segments noir et

blanc

Certains paramètres utilisés dans cette phase dépendent des caméras et sont obtenus via leurcalibration. Loaïza fait une première calibration en utilisant le modèle non linéaire de ses caméraspour quanti�er le facteur de distorsion radiale (cette connaissance permet de corriger ce défautdans les images par la suite). Cette calibration initiale est réalisée à partir d'images distordueset permet d'obtenir les modèles internes des caméras. Pour limiter l'e�et de la propagation deserreurs de ce modèle dans les images corrigées (non distordues), Loaïza fait une seconde calibra-tion à partir de ces images. Il obtient les paramètres internes et externes en utilisant un modèlelinéaire des caméras et la méthode de Faugeras-Toscani [34].

La procédure pour la reconstruction des segments est décrite ci-dessous et la �gure B.1l'illustre. Soient p1 et p2 les points extrêmes d'un segment détecté dans l'image inférieure, et p3

et p4 les points extrêmes du segment correspondant dans l'image supérieure.1. Pour l'image inférieure, trouver deux points P1 et P2 dans le repère caméra inférieure. P1

doit appartenir à la droite Oip1 et P2 à la droite Oip2. Les équations de ces droites sontdonnées par le modèle interne des caméras :

xi = ziui − u0i

αui

yi = zivi − v0i

αvi

Connaissant les coordonnées images (u, v) des points p1 et p2 et en �xant la coordonnée z

à 1 (pour faciliter les calculs), ces équations donnent les coordonnées de P1 et P2.2. E�ectuer la même démarche pour calculer les points P3 et P4 à partir des deux points p3

et p4 de l'image supérieure.3. Exprimer les coordonnées des points P1, P2 et Oi par rapport au repère caméra supérieure

en utilisant une matrice de transformation entre les repères supérieur et inférieur obtenuelors de ce qu'on appelle la calibration �stéréoscopique�.

4. A partir des nouvelles coordonnées des points P1, P2 et Oi, construire le Plan1 dé�ni par

220

l'équation :xs + c1ys + d1zs + e1 = 0

5. A partir des points P3, P4 et Os, construire le Plan2 dé�ni par l'équation :

xs + c2ys + d2zs + e2 = 0

6. Trouver la droite d'intersection Dinter entre les deux plans. Elle est donnée par :

xs =(c1d2 − d1c2)zs + (c1e2 − e1c2)

c2 − c1

ys =(d1− d2)zs + (e1 − e2)

c2 − c1

7. Les points extrêmes du segment reconstruit sont déterminés par l'intersection des droitesOsp3 et Osp4 avec la droite Dinter. Pratiquement, les coordonnées (xs, ys, zs) d'un de cespoints d'intersection sont données par :

1 0 − c1d2−d1c2c2−c1

0 1 −d1−d2c2−c1

1 0 −us−u0sαus

0 1 −vs−v0sαvs

xs

ys

zs

=

c1e2−e1c2

c2−c1e1−e2c2−c1

00

Loaïza résoud cette équation au sens des moindres carrés.

Oiyi

xi

p1p2

P2

P1

zi

zi=1

ys

xs p4

p3

zs=1

P3P4

zs

Os

Os

Oi

P3

P4

P1

P2

Dinter

Caméra inférieure

Caméra supérieure

Plan 1

Plan 2

Fig. B.1 � Géométrie pour la reconstruction 3D de segments de droite.

221

Annexe C

Projection sur di�érents espaces

couleurs

Fig. C.1 � Image 5.3 projetée sur xyz.

222

Fig. C.2 � Image 5.3 projetée sur L*a*b*.

Fig. C.3 � Image 5.3 projetée sur HSI.

223

ANNEXE C : Projection sur di�érents espaces couleurs

Fig. C.4 � Image 5.3 projetée sur I1I2I3.

224

Annexe D

Autres résultats de segmentation

D.1 Approche marginale

Les �gures D.1 à D.5 montrent les contours obtenus pour tous les axes couleurs de l'imageexemple. Les contours selon le premier axe sont en rouge, selon le deuxième axe en vert et selonle troisième axe en bleu. Quand un contour est commun à deux axes (c.-à-d. qu'il est détecté surdeux axes), il apparaît en cyan, magenta et jaune. En noir apparaissent les contours détectés surles trois axes en même temps. Le tableau suivant résume ces propos.

Tab. D.1 � Code de lecture des contours des images D.1 à D.5.Apparence Axe(s) couleur(s) de détection du contourdu contour R,V,B x,y,z L*,a*,b* H,S,I I1,I2,I3

rouge R x L* H I1vert V y a* S I2bleu B z b* I I3jaune R et V x et y L* et a* H et S I1 et I2cyan V et B y et z a* et b* S et I I2 et I3

magenta R et B x et z L* et b* H et I I1 et I3noir R et V et B x et y et z L* et a* et b* H et S et I I1 et I2 et I3blanc aucuns contours détectésFigure D.1 D.2 D.3 D.4 D.5

Au regard de ces images, un constat est évident : tous les axes ne sont pas égaux. Certainsaxes aboutissent à plus de contours que d'autres ou à des contours di�érents. On peut égalementconstater que des axes comme R, V, et B sont assez équilibrés : la plupart des contours sont ennoirs, c.-à-d. communs aux trois axes (c'est également vrai pour x, y et z ). D'autres axes donnentdes contours correspondant aux détails de la scène (contours reconnaissables à leur petites di-mensions et courbures). Comme ces contours doivent permettre de construire des segments, ilapparait que certains axes mèneront à des segments de petites dimensions.

225

ANNEXE D : Autres résultats de segmentation

Fig. D.1 � Contours obtenus pour l'image 5.3 selon les plans R, V et B.

Fig. D.2 � Contours obtenus pour l'image 5.3 selon les plans x, y et z.

226

D.1 Approche marginale

Fig. D.3 � Contours obtenus pour l'image 5.3 selon les plans L*, a* et b*.

Fig. D.4 � Contours obtenus pour l'image 5.3 selon les plans H, S et I.

227


Fig. D.5 � Contours obtenus pour l'image 5.3 selon les plans I1, I2 et I3.

D.2 Approche vectorielle

Les �gures D.6 à D.9 montrent pour les espaces xyz, L*a*b*, HSI et i1I2I3 les segmentsobtenus sur l'image exemple selon la seconde approche développée basée sur le gradient de DiZenzo. Là encore, des di�érences apparaissent entre chaque espace.

228

D.2 Approche vectorielle

Fig. D.6 � Segments obtenus pour l'image 5.3 selon l'espace xyz par l'approche vectorielle.

Fig. D.7 � Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par l'approche vectorielle.

229


Fig. D.8 � Segments obtenus pour l'image 5.3 selon l'espace HSI par l'approche vectorielle.

Fig. D.9 � Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par l'approche vectorielle.

230

D.3 Approche par fusion des contours

D.3 Approche par fusion des contours

Les �gures D.10 à D.13 montrent pour les espaces xyz, L*a*b*, HSI et i1I2I3 les segmentsobtenus sur l'image exemple selon la troisième approche développée basée sur la fusion desimages binaires �basses� et �hautes�. Par rapport aux résultats précédents, nous constatons unnet accroissement des petits segments.

Fig. D.10 � Segments obtenus pour l'image 5.3 selon l'espace xyz par l'approche fusion.

231


Fig. D.11 � Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par l'approche fusion.

Fig. D.12 � Segments obtenus pour l'image 5.3 selon l'espace HSI par l'approche fusion.

232

D.4 Sursegmentation

Fig. D.13 � Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par l'approche fusion.

D.4 Sursegmentation

Les �gures D.14 à D.17 montrent les segments obtenus par sursegmentation de l'imageexemple (5.3) selon les espaces xyz, L*a*b*, HSI et I1I2I3. Dans le cas de cette approche, lessegments sont issus d'un seul axe puis sont regroupés avec ceux des deux autres axes. La �gureD.18 montre une illustration possible de cette multiple provenance des segments. En e�et, lessegments issus des axes R, V ou B sont respectivement rouges, verts ou bleus. Les segments issusdes axes R et V, V et B, ou R et B sont respectivements jaunes, cyans ou magentas. Finalement,les segments noirs sont issus des trois axes.

233


Fig. D.14 � Segments obtenus pour l'image 5.3 selon l'espace xyz par sursegmentation.

Fig. D.15 � Segments obtenus pour l'image 5.3 selon l'espace L*a*b* par sursegmentation.

234

D.4 Sursegmentation

Fig. D.16 � Segments obtenus pour l'image 5.3 selon l'espace HSI par sursegmentation.

Fig. D.17 � Segments obtenus pour l'image 5.3 selon l'espace I1I2I3 par sursegmentation.

235


Fig. D.18 � Colorisation des segments obtenus pour l'image 5.3 selon l'espace RVB par surseg-mentation.

236

Annexe E

Réduction des couleurs par palette �xe

La réduction la plus simple consiste à remplacer la couleur de chaque pixel d'une image par lacouleur la plus proche (au sens d'une distance euclidienne) parmi les couleurs présentes dans unepalette �xée arbitrairement. Diverses palettes �xes (de 256 couleurs ou moins) existent : la toolbox�image� du logiciel Matlab propose ainsi des palettes au nom parfois évocateur comme autumn(automne), bone (os), copper (cuivre), �ag (drapeau), pink (rose), spring (printemps), summer(été), winter (hiver), et quelques autres encore. Ces palettes sont à utiliser avec des imagesspéci�ques : par exemple la palette bone est adaptée à des images médicales (radiographies).On peut aussi disposer d'une palette générique de 256 couleurs (soit 8 bits) couvrant plus oumoins tout le cube RVB comme le fait le logiciel paint. Les couleurs de la palette ont toujourstrois composantes mais avec un nombre restreint de valeurs : 8 niveaux (soit 3 bits) pour lescomposantes rouge et verte (valeurs 0, 32, 64, 96, 128, 160, 192 et 255), et 4 niveaux (soit 2 bits)pour la composante bleue (valeurs 0, 64, 128, 255). Le bleu a souvent moins d'importance que lesdeux autres composantes, c'est pourquoi on lui attribut ici moins de bits. Le défaut d'utiliser unepalette �xe est que les couleurs de la palette ne correspondent pas forcément à celles de l'imageà réduire, et certaines peuvent même ne pas être utilisées. La �gure E.1 illustre l'écart pouvantexister entre l'emploi d'une palette �xe et d'une palette adaptative : dans cet exemple, la palette�xe (sous-�gure a) génère des �artefacts� (régions homogènes ou points isolés), principalementdans les zones de transition, car elle ne dispose pas de couleurs intermédiaires au contraire de lapalette adaptative (sous-�gure b).

237

ANNEXE E : Réduction des couleurs par palette �xe

(a)

(b)

Fig. E.1 � Réduction de Lena à 256 couleurs par une palette a) �xe (paint), et b) adaptative(TB).

238

Annexe F

Di�érence entre deux images

Pour illustrer les distances proposées à la section 6.1.2.3, les �gures suivantes montrent ladi�érence absolue entre image originale et images quanti�ées à 256, 64, 16 et 4 couleurs par laseconde méthode basée sur la transformation du boulanger (palette médiane). Notons qu'a�n demieux rendre cette di�érence, nous avons étendu la dynamique des images au maximum possible.

(a) (b) (c) (d)

Fig. F.1 � Di�érences absolues (au changement de dynamique près) entre mandrill et ses quan-ti�cations de la �gure 6.15.

(a) (b) (c) (d)

Fig. F.2 � Di�érences absolues (au changement de dynamique près) entre lena et ses quanti�ca-tions par l'approche 2 de la TB.

239

Annexe G

Descripteurs locaux de qualité

D'après [139] :1. La di�érence locale de luminosité. Ce descripteur permet, en se basant sur la loi de

Weber, de tenir compte de la sensibilité de l'÷il humain à la luminance.

DLum(x, y) = 1−| ln(µ1

L(x, y))− ln(µ2L(x, y))|

ln(IML (x, y))− ln(Im

L (x, y))(G.1)

2. La di�érence locale de chrominance. Ce descripteur est basé sur le fait qu'un obser-vateur est plus sensible à des dégradations de couleur dans des zones homogènes que dansdes zones texturées. La formule donnée est exprimée en coordonnées a*b* mais peut êtreétendue à toute représentation 2D ou 3D de la chrominance.

DChr(x, y) = 1−

√(µ1

a∗(x, y)− µ2a∗(x, y))2 + (µ1

b∗(x, y)− µ2b∗(x, y))2√

(IMa∗ (x, y)− Im

a∗(x, y))2 + (IMb∗ (x, y)− Im

b∗(x, y))2(G.2)

3. La di�érence locale d'émergence. Ce descripteur repose sur le calcul de l'émergenced'un point (ou d'une couleur) (x,y) par rapport à son voisinage.

DEmg = 1−M

(|e11(x, y)− e12(x, y)|

M(e11, e12)−m(e11, e12),

|e21(x, y)− e22(x, y)|M(e21, e22)−m(e21, e22)

)(G.3)

Où :� M et m représentent respectivement les fonctions max et min,� eij compare un pixel de l'image i par rapport au voisinage V du pixel correspondantdans l'image j :

eij(x, y) =1

Card(V )

∑(x′,y′)∈V

d(Ii(x, y), Ij(x′, y′)), ∀(i, j) ∈ {1, 2} (G.4)

4. La di�érence locale de corrélation. Ce descripteur permet d'e�ectuer, entre des régions,des comparaisons selon la dispersion spatio-colorimétrique de chacune des deux imagescouleurs.

DCor(x, y) =|∑3

i=1 cov12i (x, y)|√∑3

i=1(σ1i (x, y))2 ·

√∑3i=1(σ

2i (x, y))2

(G.5)

240

Où :� i représente la composante couleur à considérer,� (σj

i (x, y))2 = 1Card(V )

∑(x′,y′)∈V (Ij

i (x′, y′)−µji (x, y))2 représente la variance du voisinage

V du pixel considéré dans l'image j,� cov12

i (x, y) = 1Card(V )

∑(x′,y′)∈V (I1

i (x′, y′) − µ1i (x, y))2 · (I2

i (x′, y′) − µ2i (x, y))2 est la co-

variance du voisinage V du pixel considéré de l'image 1 par rapport à l'image 2.Cette distance n'est cependant cohérente que si les valeurs des variances sont supérieures àun seuil ε. Ainsi, si les deux variances sont inférieures à ε, la di�érence locale de corrélationest considérée comme inexistante et par conséquent DCor(x, y) est égale à 1. A contrario,si les deux variances sont supérieures à ε, la di�érence locale de corrélation est considéréecomme maximale et est égale à 0.

241

Annexe H

Attributs mixtes en indexation

d'images

H.1 Signatures mixtes : texture et couleur

Lorsque les corrélations spatiales locales sont importantes dans l'image, l'information sup-plémentaire pour décrire l'image, en plus de la couleur, est la texture. Outre les moments, lesattributs de texture les plus courants sont basés sur les matrices de cooccurrence, les �ltres deGabor et les décompositions en ondelettes [10].

H.1.1 Matrices de cooccurrenceLes valeurs d'une matrice de cooccurrence couleur P représentent le nombre de fois où un

pixel de couleur ci est voisin d'un pixel de couleur cj selon une orientation donnée. En supposantqu'une image contienne M couleurs, la matrice sera de dimension M ×M comme le montre la�gure suivante.

c0 c0

c0c0

c1 c2

c2 c2

c1 c2

c3 c2

c3

c3 c3

c0

ci

cj

c0

c1

c2

c3

c0 c1 c2 c3

Image à M=4 couleurs

4 1

1

0

0

2

2

0 2

2

0

0

2 3

3 2

transitions à 0°

Matrice P

Fig. H.1 � Matrice de cooccurrence.

Les descripteurs, proposés par Haralick en 1979 [48] pour analyser la texture de l'image viales matrices de cooccurrence, sont dé�nis en niveaux de gris mais il est possible d'en adaptercertains à la couleur comme Trémeau [140] l'a fait :

� L'inertie couleur :I =

M∑i=0

M∑j=0

D2ij · P (i, j) (H.1)

242

H.1 Signatures mixtes : texture et couleur

avec D2ij = (Ri −Rj)2 + (Vi − Vj)2 + (Bi −Bj)2.

� La corrélation couleur :C =

M∑i=0

M∑j=0

Di ·Dj

σi · σj· P (i, j) (H.2)

avec Di =√

(Ri −Rµi)2 + (Vi − Vµi)2 + (Bi −Bµi)2

et Dj =√

(Rj −Rµj )2 + (Vj − Vµj )2 + (Bj −Bµj )2. (Rµi , Vµi , Bµi) = µi et σi (resp. µj ,σj) représentent la moyenne et l'écart-type couleur pour toutes les transitions impliquantun pixel de couleur ci (resp. un pixel de couleur cj) avec Rµi = 1PM

j=0 P (i,j)·∑M

j=0 P (i, j) ·Rj

et σi =√

1PMj=0 P (i,j)

·∑M

j=0 P (i, j) ·D2j .

H.1.2 Corrélogramme couleurUn corrélogramme couleur présente les corrélations spatiales entre couleurs en fonction de

la distance interpixels [55]. Le corrélogramme permet ainsi de décrire la distribution globale descorrélations spatiales locales entre couleurs, il est ainsi possible de calculer des paramètres detexture, au même titre que ceux dé�nis par Haralick.

Soit une image I de N pixels quanti�ée sur n couleurs (c1, c2, ..., cn). Chaque pixel p decoordonnées (x, y) est doté d'une couleur I(p). On peut donc dé�nir l'ensemble Ic des pixels decouleur c :

Ic = {p|I(p) = c} (H.3)Si, de plus, on dé�nit une distance interpixels (au sens de la norme L∞) :

|p1 − p2| = max(|x1 − x2|, |y1 − y2|) (H.4)

Alors, de façon similaire à la dé�nition des matrices de cooccurrence, pour une distance d ∈(1, 2, ..., N) �xée a priori, le corrélogramme de la couleur ci par rapport à la couleur cj est dé�nipar :

γ(k)ci,cj

(I) = probp1∈Ici[p2 ∈ Icj/|p1 − p2| = k], ∀k ∈ (1, 2, ..., d) (H.5)

Pour un pixel de couleur ci, γ(k)ci,cj est la probabilité de trouver à une distance k un pixel de

couleur cj . La taille mémoire de stockage du corrélogramme est de l'ordre de O(n2d) : le choix dela distance d est important car une grande distance est coûteuse en temps de calcul et mémoire,mais une petite distance peut compromettre la qualité de la signature. L'autocorrélogramme deI dé�nit la corrélation spatiale entre couleurs identiques :

α(k)c (I) = γ(k)

c,c (I) (H.6)

Il requiert une taille mémoire de l'ordre de O(nd).Pour mesurer la similarité entre deux images I1 et I2, Hung [55] utilsie la norme L1 ainsi

qu'une variante de cette norme pour pondérer la contribution des di�érentes couleurs :

|I1 − I2|γ =∑

i,j∈[n],k∈[N ]

|γ(k)ci,cj (I1)− γ

(k)ci,cj (I2)|

1 + γ(k)ci,cj (I1) + γ

(k)ci,cj (I2)

(H.7)

243

ANNEXE H : Attributs mixtes en indexation d'images

H.2 Signatures mixtes : spatial et couleur

Partant du fait que les pixels ayant la même couleur ne sont pas toujours associés à unemême sémantique (contour, région homogène), Pass [107] propose de classi�er les pixels en deuxcatégories : pixels cohérents et pixels de contours. Un pixel cohérent est dé�ni par l'uniformitécolorimétrique de son voisinage alors qu'un pixel de contour est situé près des lignes de séparationdes objets et donc caractérisé par un voisinage non uniforme. Le vecteur de cohérence couleur(CCV) représente ainsi cette séparation des pixels dans deux histogrammes couleurs. Du faitque la taille de la distribution des couleurs est deux fois celle des histogrammes classiques, ilest nécessaire en amont de cette approche de réduire le nombre de couleurs pour réduire lacomplexité combinatoire. D'autres approches ra�nent plus la classi�cation des pixels de l'imageet utilisent d'autres attributs comme l'épaisseur des contours.

244

Annexe I

Quanti�cations d'image rectangulaire

Fig. I.1 � Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3a : 48 couleurs.

245

ANNEXE I : Quanti�cations d'image rectangulaire

Fig. I.2 � Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3b : 108 couleurs.

Fig. I.3 � Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3c : 192 couleurs.

246

Fig. I.4 � Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3d : 300 couleurs.

Fig. I.5 � Quanti�cation de l'image 7.2 par la fenêtre médiane 7.3e : 588 couleurs.

247

Résumé : Le travail présenté dans ce document aborde le thème de la couleur en traitement numériquedes images ; plus précisément, est étudié et évalué l'emploi de la couleur dans des traitements d'imagespour lesquels l'information d'intensité est usuellement utilisée. La cadre applicatif choisi pour cette re-cherche est la localisation d'un robot mobile au sein d'un environnement domestique, tel que sont lessystèmes robotisés d'assistance aux personnes âgées ou handicapées. Deux localisations sont considérées.L'une est dite locale ou �ne et permet à terme de situer avec précision l'emplacement du robot dansl'espace, ce qui est essentiel dans un processus de navigation. La seconde est dite globale et permetà partir d'informations moindres d'avoir une idée générale du lieu où se situe le robot. Dans les deuxcas, plusieurs traitements d'images sont mis en ÷uvre pour lesquels nous proposons des solutions utili-sant l'information colorimétrique. Le premier d'entre eux est l'extraction de segments d'une image parle biais de gradients couleur et monochromatique. L'analyse des segments ainsi créés permet d'évaluerdi�érents axes couleurs de manière individuelle mais également di�érents espaces couleurs. Par la suite,en disposant des segments issus d'une paire stéréoscopique d'images, il est possible de construire unereprésentation 3D de la scène saisie. Pour ce faire, il est nécessaire d'associer correctement les segmentsde la première image avec ceux de la seconde : un tel appariement se base sur un certain nombre deparamètres intrinsèques et extrinsèques aux segments. Des paramètres couleurs sont proposés qui sontbasés sur l'identi�cation de couleurs homogènes et sur une distance intercouleurs dans le proche voisinagedes segments. Ces paramètres sont calculés sur l'axe couleur jugé le plus signi�ant pour l'image analysée.Ce choix de l'axe couleur utilise une technique originale de quanti�cation des couleurs qui a été proposéedans le cadre de ce travail. Cette technique basée sur la transformation dite du boulanger permet deréduire de manière adaptative le nombre de couleurs composant une image. Cela clôt les travaux menéssur la localisation �ne. Concernant la localisation globale, l'objectif visé est l'identi�cation de la pièced'où a été prise une image, et éventuellement l'orientation qu'a le système de vision monoculaire à cemoment. Une méthode basée sur un invariant couleur permet de trouver au sein d'une base d'images,l'image de la base correspondant à celle prise par le système. Cette connaissance permet de remonter auxinformations de lieu et d'orientation. L'invariant utilisé est une palette de couleurs extraite de l'imagepar la technique de réduction de couleurs déjà évoquée.

Mots-clefs : Couleur - Traitements d'images - Segmentation - Paramètres couleurs - Appariement desegments - Indexation - Quanti�cation

Abstract : This work deals with color in digital image processing, particularly it deals with the studyand the evaluation of the use of color versus grey levels. In-door mobile robot localization is the ap-plication �eld through a disabled people aid system. Two localizations are considered : the �rst is anaccurate localization, and the second gives the approximate place of the robot. These localizations needseveral image processings and we propose solutions using color to them. The �rst processing is a segmentextraction from image by using color and grey levels gradients. The analysis of the segments leads tothe evaluation of various color axes and various color spaces. With segments form a stereoscopic pair ofimages, it is possible to build a 3D representation of the environment. To do that, it is necessary to pairsegments of the �rst image with segments of the second image. Such a pairing is based on intrinsec andextrinsec parameters of the segments. Color parameters are proposed which are based on the identi�cationof homogeneous colors and an inter-colors distance in the vicinity of the segments. These parameters arecalculated on the color axis which is the more signi�cant for the analyzed image. This choice of the coloraxis uses an original technique of color quantization which was proposed in this work. This technique,based on the baker's transformation, quantizes in an adaptive way colors of the image. That closes thework on the accurate localization. For the other localization, the aim is to identify the place where animage was taken. It is also possible to return the orientation of the monocular vision system at thistime. A method based on a color invariant is used to �nd, within an image database, the image of thebase corresponding to the image taken by the system. This knowledge leads to the information of placeand orientation. The invariant is a color pallet extracted from the image by the quantization techniquepreviously described.

Keywords : Color - Image processings - Segmentation - Color parameters - Segment pairing - Indexing- Quantization

T H E S E - Université d'Évry

Documents

Transcript of T H E S E - Université d'Évry