Arbelaez these

U NIVERSITÉ PARIS DAUPHINE
U.F.R. M ATHÉMATIQUES DE LA D ÉCISION

Nouveau doctorat en sciences
(arrêté du 25 avril 2002)
No. attribué par la bibliothèque
| | | | | | | | | |

Pablo Andrés ARBELÁEZ ESCALANTE

Une approche métrique
pour la
segmentation d’images

Thèse pour l’obtention du titre de

D OCTEUR EN S CIENCES
Spécialité :
M ATHÉMATIQUES A PPLIQUÉES
Le 24 novembre 2005

JURY
Directeur : M. Laurent COHEN Directeur de Recherche CNRS

Président : M. Jean-Michel MOREL Professeur ENS Cachan

Rapporteurs : M. Henri MAITRE Professeur ENST

M. Jean SERRA Directeur de Recherche ENSMP

Examinateurs : Mme. Françoise DIBOS Professeur Paris-Nord

M. Laurent NAJMAN Professeur Associé ESIEE

L’université n’entend donner aucune approbation ni improbation aux opinions émises
dans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.

Remerciements

L’étude exposée dans ce mémoire a été réalisée dans le cadre de ma thèse docto-
rale au sein du Centre de Recherche en Mathématiques de la Décision (CEREMADE),
à l’Université Paris-Dauphine. Elle n’aurait jamais pu aboutir sans le concours d’un
grand nombre de personnes auxquelles je voudrais exprimer ma profonde reconnais-
sance.

Je tiens à remercier en premier lieu L AURENT C OHEN, mon directeur de thèse, pour
son encadrement, ses conseils et pour la confiance dont il m’a fait preuve en me laissant
une liberté totale dans le choix du sujet et l’orientation de ma recherche.
Je voudrais exprimer ma sincère gratitude aux membres de mon Jury de thèse.
J EAN -M ICHEL M OREL, pour l’honneur qu’il me fait de le présider ; ses qualités hu-
maines et scientifiques sont pour moi une source constante d’inspiration. J EAN S ERRA
et H ENRI M AÎTRE, pour l’intérêt qu’ils ont manifesté à mon travail en acceptant d’en
être rapporteurs ; leur regard et leurs commentaires m’ont permis de l’améliorer gran-
dement. F RANÇOISE D IBOS, dont le cours de DEA m’a initié au monde des images,
pour avoir accepté de faire partie du Jury. L AURENT NAJMAN, pour avoir bien voulu
examiner cette étude, dont ses recherches sur la LPE ont constitué un point de départ.
Je remercie également les membres du CEREMADE, les thésards du groupe Images
et, plus particulièrement, O LIVIA S ANCHEZ, C LAIRE J ONCHERY, F LORENT R AN -
CHIN et S YLVAIN P ELLETIER ; sans eux, je me serais senti étranger au labo. Merci
aussi à M ICHEL VANBREUGEL pour sa patience, sa disponibilité et son aide avec les
manips et à J OSETTE L ÉVY pour son assistance lors des missions.
D’autre part, je voudrais remercier toutes les personnes avec qui j’ai eu la chance
d’avoir d’enrichissants échanges scientifiques. En particulier, C ORINNE VACHIER,
pour l’introduction à la segmentation morphologique qu’elle m’a faite en début de
thèse et qui a grandement influencé la suite des travaux. PASCAL M ONASSE pour les
discussions sur la FLST et pour avoir eu la générosité de me prêter sa copie de l’article
de Kronrod, ainsi que sa précieuse traduction à l’anglais. M ICHEL C OUPRIE pour la
mise à disposition du logiciel PINK.

Je remercie affectueusement mes parents, ma famille et mes amis pour leur sou-
tien permanent et inconditionnel. Parmi eux, une pensée spéciale pour E MMANUELLE
P ORCHER, qui a accepté le fardeau de corriger la version préliminaire de ce manuscrit.
Je ne saurais lui exprimer ma reconnaissance pour sa solidarité et son amitié en ces
quelques lignes.
Quiero agradecer ﬁnalmente a C AMILO, H EDDA, M ARIA J OSÉ y M ARIA PATRI -
CIA , los hermanos que la vida me ha dado y que me acompañan siempre y a ROXANA
e I RENE, quienes dan sentido a mi existencia.

Table des matières

Introduction 1

I Cadre de travail 11

1 Distances et partitions 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Espaces pseudo-métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Déﬁnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.2 Espace quotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Chemins et convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Partitions métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.3.3 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.4 Partitions de Voronoï centrées . . . . . . . . . . . . . . . . . . . . . . . 30

2 Images et segmentations 33
2.1 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Composantes connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Déﬁnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2 Représentation des contours . . . . . . . . . . . . . . . . . . . . . . . . 37

i

ii

2.3.3 Images mosaïques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Graphes et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.2 Graphes d’adjacence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.3 Arbres d’inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.4 Distances sur un graphe . . . . . . . . . . . . . . . . . . . . . . . . . . 44

II Métriques de chemin 47

3 Distances pondérées 49
3.1 Définition des métriques de chemin . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Optique géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3 Propagation des fronts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Implantation par Fast Marching . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Segmentation par distances pondérées . . . . . . . . . . . . . . . . . . . . . . . 60
3.5.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Variation de chemin 69
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1 Variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Variation de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Variation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.3.2 Cadre régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Domaine discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4.1 Construction par connexité . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4.2 Construction par inclusion . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5 Segmentation par variation de chemin . . . . . . . . . . . . . . . . . . . . . . . 82

iii

4.6 Mosaïque des extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6.2 Comparaison avec la ligne de partage des eaux . . . . . . . . . . . . . . 92
4.6.3 Choix des sites par diffusion non linéaire . . . . . . . . . . . . . . . . . 99

III Ultramétriques 103

5 Classification hiérarchique 105
5.1 Ordres et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.2 Hiérarchie de parties d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 Ultramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.4 Ultramétriques et hiérarchies indicées . . . . . . . . . . . . . . . . . . . . . . . 110
5.5 Coupes et partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.6 Ultramétrique sous-dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.7 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.1 Construction de la hiérarchie . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.2 Définition de l’ultramétrique . . . . . . . . . . . . . . . . . . . . . . . . 120

6 Cartes de contours ultramétriques 123
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.2 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.3 Définition des contours ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 128
6.4 Construction ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.4.1 Fusion de régions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.4.2 Dissemblances ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 131
6.5 Mesures de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.5.1 Sous-dominante de la variation de chemin . . . . . . . . . . . . . . . . . 134
6.5.2 Ultramétrique de contraste moyen . . . . . . . . . . . . . . . . . . . . . 139
6.6 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.7 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.8 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

iv

6.8.1 Propagation de marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.8.2 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . 157
6.9 Positionnement de l’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.9.1 Cadre morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.9.2 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

IV Évaluation des résultats 167

7 Méthodologie d’évaluation 169
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.2 Vérité terrain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.3 Comparaison de segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.3.1 Signal et référence binaires . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.3.2 Descripteurs de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.3.3 Multiples segmentations humaines . . . . . . . . . . . . . . . . . . . . . 180
7.3.4 Carte de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.4 Cohérence de la segmentation humaine . . . . . . . . . . . . . . . . . . . . . . 183
7.5 Correspondance de courbes et de pixels . . . . . . . . . . . . . . . . . . . . . . 188

8 Résultats 191
8.1 Optimisation du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.1.1 Pré-segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
8.1.2 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . 196
8.1.3 Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.1.4 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.1.5 Autres éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
8.2 Comparaison avec d’autres méthodes . . . . . . . . . . . . . . . . . . . . . . . . 199
8.2.1 Détecteurs de contours locaux . . . . . . . . . . . . . . . . . . . . . . . 199
8.2.2 Approche morphologique . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.2.3 Approche variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

v

9 Conclusions et perspectives 215
9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
9.2 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.4 Liste des communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Bibliographie 227

Introduction

Motivations
Perception visuelle

The Unicorn looked dreamily at Alice, and said : "Talk, child."

Alice could not help her lips curling up into a smile as she began : "Do you know, I always

thought Unicorns were fabulous monsters, too ? I never saw one alive before !"

"Well, now that we have seen each other," said the Unicorn, "if you’ll believe in me, I’ll

believe in you. Is that a bargain ?"

Lewis Carroll. Through the Looking-Glass.

Vision artificielle

La vision artificielle, ou vision par ordinateur, est la discipline qui cherche à reproduire les

processus visuels au moyen de machines. La vue nous permet de réaliser une large diversité

de tâches dès le plus jeune âge ; avant même l’acquisition du langage, un enfant de dix-huit

mois peut reconnaître sans difficulté les personnes de son entourage sur une photo, éviter un

obstacle sur son chemin ou identifier un objet étranger à son environnement familier. La vision

semblerait donc faire partie des processus cognitifs les plus élémentaires et son étude pourrait

représenter un raccourci pour comprendre les mécanismes de l’intelligence humaine. Si tel est

le cas, nous sommes encore loin de dévoiler tous les mystères du cerveau. En 1968, l’ordinateur

du film 2001 : L’Odyssée de l’Espace, de Stanley Kubrick, reconnaissait des humains à partir

d’esquisses. Une telle prouesse relève aujourd’hui encore du domaine de la science fiction.

1

2

Images naturelles

De quel type d’information notre cerveau dispose-t-il pour voir ? La structure anatomique de

notre appareil visuel est d’une complexité considérable, mais les stades premiers de l’acquisition

des stimuli visuels sont schématiquement simples. Suite à une transformation optique réalisée

dans la partie antérieure du globule oculaire, le flot lumineux est projeté sur la rétine, où une

image rétinienne se forme. La membrane rétinienne est tapissée de millions de cellules, appelées

photorécepteurs, qui réagissent aux différentes longueurs d’onde de la lumière. Elles transmettent

le signal au nerf optique, qui l’achemine vers le cortex visuel.

L’image numérique est un modèle naturel des données d’entrée de notre système visuel. Une

image numérique représentant une scène du monde réel, ou image naturelle, est un tableau où

chaque case, ou pixel1 , codifie une teinte de gris ou une couleur. Une image est donc consti-

tuée d’un grand volume de données locales et non structurées, dont l’analyse est le propos des

systèmes de vision artificielle.

Segmentation

Lorsqu’un être humain observe une image naturelle, il voit généralement des objets phy-

siques ou leurs parties. Il peut donc diviser l’image en régions, ou segments, les représentant.

Nous allons étudier dans ce mémoire comment une machine peut reproduire cette tâche de seg-

mentation.

La segmentation est un processus de synthèse, visant à extraire les caractéristiques géomé-

triques des images en faisant abstraction des nuances de couleur, des reflets, des transparences,

des ombres, des textures et autres éléments qui constituent l’incroyable richesse de l’information

visuelle.

Comment aborder un tel problème ? Sur l’image de la Figure 1.a, on voit un dalmatien sur

une pelouse. On peut donc représenter cette information sémantique par la segmentation de la
1
pixel : de l’anglais pic-ture el-ement

3

(a) (b)
F IG . 1 – Exemple de segmentation d’une image naturelle.

partie (b), où la forme du chien se détache du fond. Comment passer de l’un à l’autre ? Comment

extraire ces régions d’un tableau de plusieurs millions de pixels, chacun d’entre eux teint d’une

couleur, parmi des millions ? Est-ce uniquement parce qu’un être humain reconnaît le chien qu’il

est capable de tracer ses contours ?

Les travaux de psychologues qui ont étudié la vision humaine au XXe siècle, et notamment

l’école du Gestalt et Juletz, suggèrent que notre perception visuelle agit plutôt dans la direction

inverse (voir [Gor97, Pal99] pour une synthèse récente du sujet). Ces chercheurs ont postulé l’hy-

pothèse d’un traitement de bas niveau agissant lors des stades initiaux de l’acquisition des stimuli

visuels, indépendant de l’information sémantique, et dont le rôle principal serait de structurer le

ﬂot de données brutes perçues par la rétine. L’extraction des caractéristiques géométriques de

l’image rétinienne permettrait dans un second temps la réalisation de tâches de haut niveau,

comme la reconnaissance et la catégorisation, où une signiﬁcation sémantique est attribuée à

l’information visuelle.

La démarche méthodologique que nous suivons pour aborder le problème de la segmentation

[Mar82, MS95] s’inspire de ces idées. Nous chercherons donc à effectuer le traitement de bas

niveau en segmentant l’image uniquement à partir de ses données physiques, sans connaître

préalablement son contenu.

4

F IG . 2 – Segmentation et information préalable.

Information sémantique

La segmentation de bas niveau est souvent considérée comme la clef de voûte de la vision

artificielle. Si on était en mesure de représenter automatiquement chaque objet de l’image par

une région, alors la compréhension de son contenu sémantique serait amplement facilitée. On

pourrait par exemple identifier le chien de la Figure 1 en utilisant des attributs de la région telles

la forme, la couleur, la taille, la texture, etc.

Remarquons néanmoins qu’une approche fondée uniquement sur les données de l’image ne

peut expliquer que partiellement le fonctionnement de la vision humaine. Les interactions entre

information physique et sémantique dans notre cerveau sont certainement beaucoup plus subtiles

et complexes que notre modèle d’étude ne le laisse entendre. Observons par exemple la Figure

2, photographie attribuée à Ronald C. James [Mar82]. Bien qu’on puisse décrire cette image

et la Figure 1 avec les mêmes mots, il est difficile de s’en apercevoir au premier coup d’oeil.

En revanche, une fois qu’on l’a identifié, on voit clairement le chien se détacher du fond et

l’organisation perceptuelle de la scène ne présente plus d’ambiguïtés. On pourrait même essayer

de tracer ses contours, mais quelle proportion de ces contours se trouve réellement dans l’image ?

Peut-on réaliser cette tâche si on n’a jamais vu un dalmatien ? Cet exemple est-il un cas limite ou

typique du fonctionnement de notre appareil visuel ?

5

La question de fond qui se pose est de savoir s’il est possible de quantifier le rôle de l’in-

formation sémantique dans la segmentation d’images naturelles. Notre façon d’y répondre sera

de créer un système de segmentation de bas niveau et de comparer sa performance à celle des

Humains sur une large base d’images naturelles.

Segmentation hiérarchique

Pour segmenter une image naturelle, un Humain identifie des objets physiques et démarque

leurs contours jusqu’à un certain niveau de détail, donné par l’attention qu’il leur accorde. Si on

suppose que tous les sujets d’un groupe d’Humains perçoivent les mêmes objets dans une image,

alors la superposition des contours (ou l’intersection des segments) de leurs segmentations four-

nit le plus fin niveau de détail considéré (voir la Figure 7.2, p. 174), aux erreurs de localisation

près. Les détails peuvent alors se regrouper en objets et puis en ensembles d’objets, etc. L’or-

ganisation perceptuelle de l’image peut donc se représenter par un arbre de régions, ordonné

selon l’inclusion, comme celui de la Figure 3. La racine de l’arbre perceptuel est la scène entière,

les feuilles sont les plus fins détails et chaque région représente un objet à une certaine échelle

d’observation.

Si on demandait à chaque sujet de construire un arbre perceptuel, on obtiendrait sans doute,

comme pour les segmentations, des résultats différents. Notre hypothèse de travail sera qu’on

peut reconstruire à partir des segmentations humaines un arbre qui explique le contenu séman-

tique de l’image. Les différentes segmentations peuvent alors s’interpréter comme un élagage de

l’arbre par l’attention de chaque sujet.

Dans l’expérience de la Figure 3, les instructions données aux sujets spécifiaient que toutes

les régions devaient avoir la même importance [Mar02], les encourageant ainsi à segmenter à

échelle constante. Le résultat montre que la notion d’échelle est subjective et varie d’un sujet à

un autre. Il s’agit en outre d’une information de haut niveau, déterminée par le contenu séman-

tique. Si on devait par exemple diviser en deux régions un portrait, probablement tous les sujets

6

Image originale Segmentations humaines Arbre perceptuel

Segmentation 1 Segmentation 1 Coupe 1



F IG . 3 – Organisation hiérarchique de la perception visuelle humaine. Haut : Image originale,
segmentations humaines superposées et arbre perceptuel possible. Lignes 2 à 4 : Trois segmen-
tations humaines et coupes correspondantes dans l’arbre.

7

sépareraient la figure humaine du fond, se souciant peu des données physiques de l’image.

L’importance de l’information préalable dans l’organisation perceptuelle rend vaine la re-

construction d’un arbre perceptuel au moyen d’une approche de bas niveau comme la nôtre. La

structure hiérarchique de la perception humaine suggère néanmoins qu’une stratégie à plusieurs

niveaux d’observation, ou multi-échelles, est souhaitable pour l’étude de la segmentation.

Présentation de l’approche

Les observations des pages précédentes avaient pour objectif de sensibiliser le lecteur à l’in-

térêt de l’étude de la segmentation et à ses difficultés intrinsèques. La vision artificielle est une

discipline jeune dont les principaux problèmes restent encore à élucider. Dans le cas de la seg-

mentation, le niveau de performance des techniques actuelles est encore loin de celui atteint par

les Humains. Le présent mémoire expose les travaux réalisés au cours de notre thèse doctorale

pour étudier la segmentation d’images naturelles. L’approche proposée, délibérément naïve, est

construite à partir des notions qui nous semblent centrales au problème.

Cadre de travail

La segmentation peut se concevoir comme un processus de regroupement perceptuel. Une

façon naturelle de regrouper ou de séparer des données est de les comparer au moyen d’une

distance. Ceci nous a conduit à formuler le problème dans le cadre métrique et à étudier les

partitions de l’espace induites par une distance. Deux types de partitions métriques, illustrés dans

la Figure 1.1, sont initialement considérées. Les premières, appelées partitions par seuillage,

sont obtenues en séparant des autres points de l’espace ceux dont la distance à un ensemble

est inférieure à un certain seuil. Les secondes, nommées partitions de Voronoï, décomposent

l’espace par rapport à une famille de points, ou sites, en assignant chaque point au site le plus

proche.

Le Chapitre 1 du mémoire présente les fondements du formalisme métrique. Cette première

8

partie est complétée par le Chapitre 2, qui traite des images ainsi que des structures pour les

représenter et les manipuler.

L’application de la théorie métrique nécessite la définition de distances appropriées pour

traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent à

partir des données de l’image. Les deuxième et troisième parties du mémoire présentent deux

voies pour atteindre ce but.

Métriques de chemin

La deuxième partie s’intéresse aux métriques de chemin, définies en mesurant le minimum de

la longueur des chemins entre points de l’espace. À chaque notion de longueur correspond une

distance différente. Nous présentons dans le Chapitre 3 l’exemple le plus classique, les distances

pondérées, ainsi que leurs applications principales à la segmentation. Dans le Chapitre 4, nous

proposons l’étude de la distance appelée variation de chemin, obtenue en considérant comme

longueur la variation totale de l’image sur le chemin.

Ultramétriques

La caractéristique principale de la perception visuelle humaine est son organisation hiérar-

chique. Cette constatation suggère d’approcher la segmentation comme un problème de classifi-

cation hiérarchique des données, voie que nous explorons dans la troisième partie du mémoire.

Le Chapitre 5 rappèle les éléments de base de cette théorie, issue historiquement du domaine de

la taxinomie numérique. Dans cette perspective, il semble plus approprié d’étudier la segmenta-

tion au moyen d’une famille de partitions emboîtées, plutôt qu’une partition unique. Ajoutée à la

notion d’échelle, cette idée conduit à la structure de hiérarchie indicée.

Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances appelées

ultramétriques. Ces distances induisent un nouveau type de partitions métriques, les partitions

ultramétriques, qui sont à la fois des partitions par seuillage et de Voronoï. Nous abordons dans

9

le Chapitre 6 le problème de la construction d’ultramétriques significatives pour la segmentation.

Dans ce but, nous remarquons que l’information géométrique des objets est en grande partie

exprimée dans leurs contours. Ainsi, nous proposons des ultramétriques spécifiques pour l’ex-

traction des contours des images naturelles. Ces distances sont déterminées principalement par

l’information de frontière des régions, qui est ensuite complétée par leurs attributs internes.

Évaluation des résultats

La démarche méthodologique suivie consiste à utiliser uniquement l’information de bas ni-

veau, retardant le plus possible l’utilisation de la connaissance sémantique dans le processus de

segmentation. Ainsi, nous exprimons systématiquement les degrés de liberté de notre système

sous forme de paramètres et interprétons leur ajustement comme l’introduction d’information de

plus haut niveau sur la structure géométrique des objets. La dernière partie du mémoire s’inté-

resse à l’inclusion de ce type d’information dans notre système de segmentation. Nous présentons

dans le Chapitre 7 une méthodologie générale pour mesurer la qualité d’une segmentation par

rapport à une référence. Cette vérité terrain contient l’information préalable, qui est dans notre

cas composée de segmentations humaines d’images naturelles. Ce cadre nous permet finalement

dans le Chapitre 8 d’optimiser les paramètres du système, d’évaluer quantitativement la perti-

nence de notre approche, et de la comparer à d’autres méthodes de segmentation.

Première partie

Cadre de travail

11

Chapitre 1

Distances et partitions

1.1 Introduction

La notion de distance est intimement liée à notre façon d’appréhender le monde. Qu’il

s’agisse d’objets physiques ou de concepts, il nous semble naturel de comparer deux éléments

d’un ensemble en disant qu’ils sont "proches" ou "éloignés". La formalisation mathématique la

plus répandue de cette idée intuitive est celle d’espace métrique, où les éléments de l’ensemble

sont appelés points et la distance est mesurée avec des nombres réels positifs.

Les distances sont en particulier utilisées pour décomposer des ensembles. Dans cette op-

tique, deux stratégies semblent naturelles. La première consiste à considérer un point ou un

ensemble initial S et à diviser les points de l’espace selon que leur distance à S est inférieure

ou supérieure à un seuil. Nous appelons cette approche partition par seuillage de la distance.

La Figure 1.1.a présente un exemple où S est un point isolé. Dans ce cas, l’ensemble de niveau

inférieur de la distance est la boule centrée en S.

La deuxième stratégie consiste à se donner une famille de points ou de sous-ensembles, ap-

pelés sites, et à assigner chaque point de l’espace au site le plus proche. Cette construction est

connue sous le nom de partition de Voronoï et les régions qu’elle déﬁnit sont souvent nom-

mées régions de Voronoï. La Figure 1.1.b présente une partition de Voronoï classique. Dans cet

exemple, un rectangle du plan est divisé en mesurant la distance euclidienne entre chaque point

13

14

(a) (b)
F IG . 1.1 – Exemple de partitions de l’espace induites par la distance euclidienne. a : partition
par seuillage. b : partition de Voronoï.

et quatre sites. Les régions de Voronoï sont ici des polygones convexes.

De nombreux objets naturels, comme ceux des Figures 1.2.a et 1.2.b, présentent une structure

similaire aux partitions de Voronoï. Il n’est donc guère surprenant que cette notion soit de longue

date familière au monde scientifique. En 1644, Descartes utilisait déjà des constructions proches

des partitions de Voronoï dans ses Principia Philosophiae [Des44]. La Figure 1.2.c reproduit

par exemple une illustration employée par l’auteur pour décrire la distribution de la matière aux

alentours du système solaire.

Les premières formalisations du concept sont attribuées à Dirichlet [Dir50] et à Voronoï

[Vor07, Vor08, Vor09] dans le cadre de leurs études sur les formes quadratiques. Cependant,

grâce à la nature hautement intuitive de sa définition, la partition de Voronoï fut redécouverte

indépendamment dans des domaines très divers. Ainsi, les régions de Voronoï sont fréquemment

appelées pleisohedra en cristallographie, polygones de Thiessen en météorologie, régions de

Wigner-Seitz en chimie, ou encore zones d’influence en morphologie mathématique.

Depuis son introduction, la partition de Voronoï a trouvé son application dans un très large

spectre de disciplines et a fait l’objet de nombreuses généralisations. Le livre de Okabe et al.

[OBSC02] et la monographie de Aurenhammer et Klein [AK00] sont deux ouvrages de référence

sur le sujet. Parmi les applications des Partitions de Voronoï à l’analyse d’images, on peut citer

15

(a) (b) (c)
F IG . 1.2 – a et b : Structures naturelles semblables à une partition de Voronoï. c : Représentation
des alentours du système solaire par Descartes : S désigne le soleil, F une étoile proche et la
courbe qui passe par les points E et V décrit la trajectoire d’un comète.

la compression [AAS85], la représentation des formes [MR96] ou la classification des textures

[TJ90].

Voronoï fut aussi le premier à remarquer qu’une partition duale de l’espace peut être définie

en joignant par un segment de droite tous les sites dont les régions sont adjacentes. Cette autre

structure, connue aujourd’hui sous le nom de triangulation de Delaunay, est aussi largement

utilisée. Son étude dépasse cependant le cadre du présent travail. Le lecteur intéressé trouvera

dans [OBSC02] un traitement exhaustif du sujet.

Ce premier chapitre présente le cadre mathématique de notre étude ; les principales notions

sont définies et les notations employées tout au long du mémoire sont introduites. Nous commen-

çons par rappeler les bases du formalisme métrique pour nous intéresser ensuite aux partitions

de l’espace induites par une distance.

16

1.2 Espaces pseudo-métriques

1.2.1 Définitions

Définition 1.2.1. Une pseudo-métrique [Kel75] sur un ensemble Ω est une application ψ :

Ω × Ω → R qui satisfait les axiomes suivants :

Réflexivité :

ψ(x, x) = 0, ∀x ∈ Ω. (1.2.1)

Inégalité Triangulaire :

ψ(x, y) ≤ ψ(z, x) + ψ(z, y), ∀x, y, z ∈ Ω. (1.2.2)

Le couple (Ω, ψ) est appelé un espace pseudo-métrique et le nombre ψ(x, y) est la distance

entre les points x et y. Les pseudo-métriques sont parfois aussi appelées écarts finis [Kur66].

Les deux propriétés suivantes sont conséquence immédiate de la Définition 1.2.1 :

Proposition 1.2.1. Si (Ω, ψ) est un espace pseudo-métrique, alors :

Symétrie :

ψ(x, y) = ψ(y, x), ∀x, y ∈ Ω. (1.2.3)

Positivité :

0 ≤ ψ(z, y), ∀z, y ∈ Ω. (1.2.4)

Démonstration. Pour prouver la Symétrie, considérons l’Inégalité Triangulaire en remplaçant z

par y :

ψ(x, y) ≤ ψ(y, x) + ψ(y, y).

Or, d’après la Réflexivité, ψ(y, y) = 0, donc :

ψ(x, y) ≤ ψ(y, x).

17

En inversant les rôles de x et y on obtient l’inégalité inverse ψ(y, x) ≤ ψ(x, y), d’où le résultat.

Prouvons la Positivité. D’après l’Inégalité Triangulaire avec x = y, on a :

ψ(y, y) ≤ ψ(z, y) + ψ(z, y)

et donc, d’après la Réflexivité, 0 ≤ ψ(z, y).

Souvent, la structure métrique est utilisée pour organiser les points de l’espace par rapport à

un point ou un ensemble fixé.

La distance à un point s ∈ Ω est l’application d’une seule variable ψs : Ω → R+ donnée

par :

ψs (x) = ψ(x, s), ∀ x ∈ Ω.

La distance à un ensemble S ⊂ Ω est définie comme le minimum de la distance aux points de

S:

ψS (x) = inf ψs (x), ∀ x ∈ Ω. (1.2.5)
s∈S

La boule (ouverte) centrée en un point s ∈ Ω et de rayon r > 0 est définie comme dans un

espace métrique :

Bs (r) = {x ∈ Ω | ψ(s, x) < r}

On prouve que la famille de boules

B = {Bs (r) | s ∈ Ω, r > 0}

est une base pour une topologie, nommée topologie pseudo-métrique de Ω induite par ψ.

1.2.2 Espace quotient

Remarquons que la seule différence entre la Définition 1.2.1 et celle d’un espace métrique

est la Réflexivité, qui remplace l’axiome de Séparation habituel :

18

ψ(x, y) = 0 ⇔ x = y.

Par conséquent, deux points distincts peuvent se trouver à distance nulle dans un espace

pseudo-métrique.

Cependant, la relation ∼ψ , définie dans Ω × Ω par la formule

x ∼ψ y ⇔ ψ(x, y) = 0

satisfait clairement les trois propriétés suivantes :

x ∼ψ x, ∀x ∈ Ω.

x ∼ψ y ⇔ y ∼ψ x.

Si x ∼ψ y et y ∼ψ z, alors x ∼ψ z.

La relation ∼ψ est donc une relation d’équivalence et on peut considérer la classe d’équiva-

lence d’un point x, formée par tous les points qui sont à distance nulle de x :

x(ψ) = { y ∈ Ω | ψ(x, y) = 0}.
ˆ

Ainsi, x(ψ) est la fermeture de x pour la topologie pseudo-métrique. Les classes d’équivalence
ˆ

indiquent le niveau de résolution de l’espace, en dessous duquel la distance est aveugle.

L’ensemble des classes d’équivalence est noté par :

Ω(ψ) = {ˆ(ψ)| x ∈ Ω}.
x

Une topologie pour Ω(ψ) est alors définie en considérant le système de voisinages suivant :

Soit U une partie ouverte de Ω pour la topologie pseudo-métrique qui contient la classe

x(ψ). Un voisinage de x(ψ) dans Ω(ψ) est défini comme l’union de tous les y (ψ) ∈ Ω(ψ) tels
ˆ ˆ ˆ

que y (ψ) ⊂ U dans Ω.
ˆ

19

L’ensemble Ω(ψ) muni de cette topologie est appelé l’espace quotient de Ω sous ∼ψ . Ainsi,

la projection naturelle πψ : Ω → Ω donnée par la formule πψ (x) = x(ψ), ∀ x ∈ Ω est une
ˆ

fonction continue.
ˆ ˆx ˆ
Par conséquent, l’application ψ : Ω(ψ) × Ω(ψ) → R définie par ψ(ˆ, y ) = ψ(x, y) est une

métrique pour l’espace quotient. Remarquons que, dans le cas où ψ est déjà une métrique, alors

l’espace quotient Ω(ψ) est homéomorphe à Ω.

1.2.3 Exemples

Illustrons à présent les définitions avec trois exemples élémentaires de pseudo-métriques dans

le plan : la distance euclidienne et deux projections.

Exemple 1

L’espace métrique canonique est l’espace euclidien (Rn , ), où la distance entre deux points

x = (x1 , ..., xn ) et y = (y1 , ..., yn ) est donnée par la formule de Pythagore :

n 1/2
2
(x, y) = (xi − yi ) .
i=1

Puisque est une métrique, l’espace quotient Rn ( ) coïncide avec Rn et s( ), la classe d’équiva-
ˆ

lence du point s, est réduite au singleton {s}.

La Figure 1.3 montre deux exemples de distance euclidienne à un ensemble S ⊂ R2 . En

haut, S est réduit à un point isolé et le graphe de S est un cône. Dans l’exemple d’en bas, S est

une courbe. Cette figure illustre aussi deux façons de présenter la distance à un sous-ensemble

du plan. La première est l’image des intensités (au centre), où le niveau de gris de chaque pixel

est proportionnel à sa distance à S, et la seconde est le graphe (à droite), comme sous-ensemble

de R3 :

{(x, ψS (x)) | x ∈ R2 }.

20

S s s

(a) (b) (c)
F IG . 1.3 – a : Ensemble de référence S : un point isolé (haut) et une courbe (bas). b : Images
des intensités de la distance euclidienne à S. c : Graphes de S .

Exemple 2

Soit l’application ψ 1 : R2 × R2 → R déﬁnie, pour tout couple de points x = (x1 , x2 ), y =

(y1 , y2 ) ∈ R2 , par la formule :

ψ 1 (x, y) = |x2 − y2 | = (x2 , y2 ).

Remarquons que, puisque (R, ) est un espace métrique, ψ 1 satisfait les deux axiomes de la

Déﬁnition 1.2.1 :

ψ 1 (x, x) = |x2 − x2 | = 0, ∀x ∈ Ω.

ψ 1 (x, y) = |x2 − y2 | ≤ |z2 − x2 | + |z2 − y2 | = ψ 1 (z, x) + ψ 1 (z, y), ∀x, y, z ∈ Ω.

Ainsi, (R2 , ψ 1 ) est un espace pseudo-métrique. Cet espace n’est cependant pas métrique, car

la classe d’équivalence d’un point s = (s1 , s2 ) correspond à la droite horizontale qui passe par

s:

s(ψ 1 ) = { y ∈ R2 | ψ 1 (s, y) = 0} = { (y1 , y2 ) ∈ R2 | y2 = s2 }.
ˆ

21

s(ψ 1 )
ˆ 1
ψs 1
ψs

s(ψ 2 )
ˆ 2
ψs 2
ψs

(a) (b) (c)
F IG . 1.4 – a : Classes d’équivalence d’un point. b : Images des intensités de la distance au point.
c : Graphes de la distance au point.

L’espace quotient R2 (ψ 1 ) est donc homéomorphe à la droite des réels (R, ). Enfin, la projection

πψ1 est ici la projection du plan cartésien sur l’axe des ordonnées : πψ1 (x1 , x2 ) = x2 , et la
ˆ
métrique quotient ψ 1 coïncide avec la distance euclidienne dans R.

Exemple 3

Exprimons enfin les points du plan en coordonnées polaires et considérons l’application ψ 2

définie, pour tout couple de points x = (r1 , θ1 ), y = (r2 , θ2 ) ∈ R+ × [0, 2π[ , par la formule :

ψ 2 (x, y) = |r1 − r2 | = (r1 , r2 ).

La vérification que ψ 2 est une pseudo-métrique est identique à l’Exemple 2. Par ailleurs, puisque

ψ 2 mesure la différence absolue des modules des points, la classe d’équivalence d’un point s =

(r0 , θ0 ) est le cercle centré en l’origine O et de rayon r0 :

s(ψ 2 ) = { (r, θ) ∈ R+ × [0, 2π[ | r = r0 }.
ˆ

22

L’espace quotient de R+ × [0, 2π[ sous ψ 2 est une semi-droite munie de la distance euclidienne.

La Figure 1.4 illustre les déﬁnitions avec les pseudo-métriques ψ 1 et ψ 2 , dans le cas où S est

un point isolé.

Notons enﬁn que, pour ces exemples simples de pseudo-métriques, l’application ψs mesure

la distance euclidienne à l’ensemble s(ψ).
ˆ

1.2.4 Chemins et convexité

La notion usuelle de convexité dans Rn repose sur la distance euclidienne. On dit qu’un

ensemble Ω ⊂ Rn est convexe si, pour tout couple de points, le segment de droite les joignant

est entièrement contenu dans Ω. L’étude des partitions d’un espace pseudo-métrique requiert

l’extension de ce concept.

Un chemin γ entre deux points x, y ∈ Ω est une application continue d’un segment de (R, )

dans l’espace (Ω, ψ) :

γ : [a, b] → Ω tel que γ(a) = x et γ(b) = y.

L’image d’un chemin est appelée une courbe de Ω et notée aussi γ :

γ = {x ∈ Ω | ∃t ∈ [a, b] : x = γ(t)}

L’ensemble des chemins entre x et y est noté Γxy et l’ensemble des chemins entre points de

Ω est noté ΓΩ .

Un ensemble Ω est connexe par arcs s’il existe un chemin reliant entre eux tout couple de

points.

Un chemin γ ∈ Γxy est ψ−droit s’il satisfait la condition suivante :

∀ t ∈ [a, b], ψ(x, y) = ψ(x, γ(t)) + ψ(γ(t), y)

Les chemins ψ−droits sont donc l’équivalent des segments de droite pour une distance arbitraire.

Ce sont les chemins pour lesquels l’Inégalité Triangulaire devient une égalité. Notons cependant

23

que, à la différence de l’espace euclidien, un chemin ψ−droit entre deux points d’un espace

pseudo-métrique peut ne pas être unique.

Ainsi, la notion de convexité dans notre cadre de travail est la suivante :

Définition 1.2.2. Un espace pseudo-métrique (Ω, ψ) est convexe si et seulement si, pour tout

couple de points, il existe un chemin ψ−droit les joignant.

On dira aussi que l’ensemble Ω est convexe pour ψ. Notons enfin que tout espace convexe

est connexe par arcs.

1.3 Partitions métriques

Cette section s’intéresse aux partitions induites par une distance. Nous commençons par pré-

ciser la notion de décomposition de l’espace considérée.

Définition 1.3.1. Soit (Ω, ψ) un espace pseudo-métrique. Une partition de Ω est une famille

finie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes :

Ωi est fermé, ∀i ∈ {1, ..., n}. (1.3.1)

[Ωi ∂Ωi ] [Ωj ∂Ωj ] = ∅, ∀ i = j. (1.3.2)
n
Ωi = Ω. (1.3.3)
i=1

Une partition est donc un recouvrement de Ω en régions fermées qui se superposent unique-

ment sur leurs frontières.

24

1.3.1 Partitions par seuillage

Un premier type de partitions métriques repose sur la notion d’ensemble de niveau d’une

fonction scalaire.

Définition 1.3.2. L’isoensemble de niveau k d’une fonction F : Ω → R est défini par :

[F = k] = F −1 (k).

L’ensemble de niveau inférieur (au niveau k) d’une fonction F : Ω → R est donné par :

[F ≤ k] = {x ∈ Ω | F (x) ≤ k}.

De même, on définit l’ensemble de niveau supérieur (au niveau k) de F :

[F ≥ k] = {x ∈ Ω | F (x) ≥ k}.

Si on se donne un ensemble de référence S ⊂ Ω, une première façon de décomposer un

espace pseudo-métrique (Ω, ψ) est de considérer les ensembles de niveau de la fonction scalaire

ψS . Ainsi, on peut partager les points de l’espace entre ceux qui se trouvent à une distance de S

inférieure ou égale à un seuil k :

[ψS ≤ k] = {x ∈ Ω | ψS (x) ≤ k}

et ceux dont la distance à S est supérieure ou égale à k :

[ψS ≥ k] = {x ∈ Ω | ψS (x) ≥ k}.

Remarquons que, si S est connexe, alors l’ensemble de niveau inférieur de ψS l’est aussi. En

revanche, l’ensemble de niveau supérieur de la distance à S, [ψS ≥ k], peut posséder plusieurs

composantes connexes, notées [ψS ≥ k]1 , ..., [ψS ≥ k]q .

25

Π( , {s}, k) Π(ψ 1 , {s}, k) Π(ψ 2 , {s}, k)

F IG . 1.5 – Exemples de partitions par seuillage de la distance à un point.

Nous appelons partition par seuillage de la distance l’ensemble :

Π(ψ, S, k) = {[ψS ≤ k], [ψS ≥ k]1 , ..., [ψS ≥ k]q }

En termes morphologiques, la construction de Π(ψ, S, k) est équivalente à la dilatation de S

lorsque l’élément structurant est une boule de rayon k pour la distance ψ.

La Figure 1.5 montre trois exemples de ce type de partitions. L’ensemble initial est le point

s de la Figure 1.4 et les pseudo-métriques sont celles de la Section 1.2.3. Dans chaque cas, le

niveau k à été fixé à 3/10 du maximum de la distance sur l’ensemble.

1.3.2 Partitions de Voronoï

Une deuxième façon de décomposer l’espace à partir de sa structure métrique est de consi-

dérer les "régions d’attraction" d’un ensemble de points fixés appelés, selon le contexte, sites,

sources ou générateurs.

Définition 1.3.3. Soit (Ω, ψ) un espace pseudo-métrique fermé et S = {s1 , ..., sn } ⊆ Ω un

ensemble fini de sites.

La région de Voronoï, ou V-région, du site si ∈ S est définie par :

Vi = {x ∈ Ω| ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = i}.

La partition de Voronoï, ou V-partition, de Ω associée à ψ et à S est l’ensemble des régions

26

de Voronoï :

Π(ψ, S) = {V1 , ..., Vn }.

Le diagramme de Voronoï, ou V-diagramme, de Ω associé à ψ et à S est l’union des fron-

tières des régions de Voronoï :
n
∆(ψ, S) = ∂Vi .
i=1

En morphologie mathématique, les V-régions s’appellent aussi les zones d’influence des sites

et le V-diagramme, le squelette par zones d’influence [Lan78].

Notons que la famille finie Π(ψ, S) est bien une partition de Ω, dans le sens de la Définition

1.3.1. Dans le cas des espaces convexes, les régions de Voronoï sont de surcroît des ensembles

connexes, comme le montre le résultat suivant.

Proposition 1.3.1. Soit Π(ψ, S) une V-partition dans un espace pseudo-métrique convexe et

fermé (Ω, ψ). Alors, tout chemin ψ−droit entre un site si et un point x ∈ Vi est complètement

inclus dans Vi .

Démonstration. Puisque (Ω, ψ) est convexe, il existe un chemin ψ−droit reliant entre eux tout

couple de points de Ω. Notons γ un chemin ψ−droit entre un site si et un point x de sa région de

Voronoï. Supposons que γ n’est pas complètement inclus dans Vi . Il existe alors un point y dans

la courbe γ tel que y ∈ Vi . Donc, puisque les régions de Voronoï recouvrent Ω, il existe un autre
/

site sj = si tel que ψsj (y) < ψsi (y). Mais, étant donné que γ est un chemin ψ−droit, l’Inégalité

Triangulaire donne :

ψsj (x) = ψ(x, sj ) ≤ ψ(y, x) + ψ(y, sj ) < ψ(y, x) + ψ(y, si ) = ψ(x, si ) = ψsi (x).

Ainsi ψsj (x) < ψsi (x). On en déduit que x ∈ Vi , ce qui est en contradiction avec les hypothèses.
/

27

(a) (b) (c)

F IG . 1.6 – a : Ensemble de sites S et univers Ω. b et c : Partitions de Voronoï Π(ψ 1 , S) et
Π(ψ 2 , S).

Toute région de Voronoï d’un espace pseudo-métrique convexe est donc un sous-ensemble

connexe de Ω. Notons par ailleurs que le résultat précédent fournit une description géométrique

plus précise des V-régions : celles-ci ont la forme d’une étoile à partir du site. Dans le cas des

partitions de Voronoï induites par la métrique euclidienne, les V-régions sont des polygones

convexes, comme le montre la Figure 1.1.a. La convexité n’est cependant pas forcément préser-

vée pour une distance arbitraire [AK00].

Remarquons que tout élément d’une partition de Voronoï est une union d’éléments de l’es-

pace quotient. De plus, notons que ψs = ψy , ∀y ∈ s(ψ). Un site peut donc être remplacé par
ˆ

un autre point de sa classe d’équivalence sans affecter la V-partition. Par suite, la notion de site

désignera indistinctement le point s ou sa classe d’équivalence s(ψ).
ˆ

Considérons par exemple l’ensemble de sites S = {s1 , s2 , s3 , s4 } dans l’univers rectangulaire

Ω de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 de la Section 1.2.2. Puisque s1 et s4

ont même ordonnée, leurs classes d’équivalence sous ψ 1 coïncident et correspondent à la droite

horizontale tracée en noir. De même, si l’origine est choisie en s2 , alors on a s1 (ψ 2 ) = s4 (ψ 2 )
ˆ ˆ

et cette classe d’équivalence unique correspond au cercle noir. Par conséquent, dans toute V-

partition induite par ψ 1 ou ψ 2 les deux points appartiendront à la même V-région. En outre, pour

ces deux pseudo-métriques, les ensembles de sites {s1 , s2 , s3 , s4 }, {ˆ1 , s2 , s3 } et {ˆ2 , s3 , s4 } sont
s ˆ ˆ s ˆ ˆ

équivalents.

Les Figures 1.6.b et 1.6.c montrent les partitions de Voronoï obtenues avec l’ensemble de

28

sites de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 respectivement. Dans le premier cas,

les régions de Voronoï sont des bandes horizontales, tandis que pour ψ 2 ce sont des couronnes

centrées en l’origine.

Remarquons toutefois que l’espace pseudo-métrique (Ω, ψ 2 ) n’est pas convexe. Ceci peut

s’observer aussi dans la Figure 1.6.a : tout chemin ψ 2 -droit joignant s1 et s4 est par définition

contenu dans s1 (ψ 2 ), le cercle noir, or celui-ci n’est pas entièrement contenu dans le rectangle
ˆ

Ω. Par conséquent, les V-régions sous ψ 2 dans cet univers peuvent ne pas être connexes.

1.3.3 Cadre variationnel

Nous complétons ce chapitre par une formulation variationnelle de l’approche métrique. Ce

paragraphe présente les V-partitions en tant que minimisatrices d’une énergie et le paragraphe

suivant contient un résultat analogue pour les V-partitions centrées. On se place ici dans Rn et on

suppose que (Ω, ψ) est un espace métrique.

Lemme 1.3.2. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition de

Ω ⊂ Rn telle que si ∈ Ωi , ∀i ∈ [1, ..., n].

Alors, Π est une partition de Voronoï si et seulement si

ψsi (x) = ψS (x), ∀ x ∈ Ω. (1.3.4)

Démonstration. Supposons que Π = {V1 , ..., Vn } est la partition de Voronoï associée à S. Soient

x ∈ Ω et Vi ∈ Π tels que x ∈ Vi . Alors, par définition de V-région, on a

ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = i

Donc, d’après la définition de distance à un ensemble (1.2.5),

ψsi (x) = ψS (x).

29

Réciproquement, si Π n’est pas une partition de Voronoï, alors au moins une de ses régions n’est

pas une V-région : ∃i : Ωi = Vi . Considérons un point x ∈ Ωi Vi . Il existe alors une V-région

Vj = Vi telle que x ∈ Vj . On a donc

ψS (x) = ψsj (x) < ψsi (x).

Théorème 1.3.3. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition

de Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n].

Alors, Π minimise l’énergie :
n
E(Ω1 , ..., Ωn ) = ψsi (x)dx (1.3.5)
i=1 Ωi

si et seulement si Π est une partition de Voronoï.

Démonstration. Par déﬁnition de ψS , on a l’inégalité :
n n
E(Ω1 , ..., Ωn ) = ψsi (x)dx ≥ ψS (x)dx = ψS (x)dx = E(V1 , ..., Vn ). (1.3.6)
i=1 Ωi i=1 Ωi Ω

Pour une partition de Voronoï, l’énergie est donc minimale.

Réciproquement, si (1.3.6) est une égalité, alors pour tout i, on a Ωi
{ψsi (x)−ψS (x)}dx = 0.

Mais, par déﬁnition, ψsi (x) ≥ ψS (x) et on a : U
{ψsi (x) − ψS (x)}dx = 0, pour tout U ⊆ Ωi .

Ainsi, puisque ψsi et ψS sont des fonctions continues, l’égalité est vraie sur Int(Ωi ) = Ωi .

On a donc prouvé que : ∀x ∈ Ωi , ψsi (x) = ψS (x), ce qui est équivalent à dire que {Ω1 , ...Ωn }

est une partition de Voronoï d’après le Lemme 1.3.2.

Un avantage de cette formulation variationnelle est qu’elle permet d’introduire de l’informa-

tion préalable dans la V-partition. On peut par exemple contrôler la régularité des V-régions en

ajoutant un terme de longueur de bord à l’énergie (1.3.6). Dans le contexte de la segmentation,

cette idée a été employée pour régulariser les contours obtenus par ligne de partage des eaux

[NWvdB03]. Cependant, puisque nous ne voulons pas inclure de connaissance à priori sur le

contenu de l’image dans notre système, cette approche ne sera pas développée dans la suite.

30

(a) (b) (c)
F IG . 1.7 – a : V-Partition non centrée. b et c : Partitions de Voronoï centrées.

1.3.4 Partitions de Voronoï centrées

Une partition de Voronoï centrée est une V-partition où chaque site est le barycentre de

sa V-région. Notons que cette condition n’est généralement pas satisfaite dans une V-partition

arbitraire, comme le montre la Figure 1.7.a.

Le barycentre ou centre de masse z ∗ d’un ensemble V est défini au moyen d’une fonction de

densité ρ :
xρ(x)dx
z∗ = V

V
ρ(x)dx
Alternativement, on peut définir le barycentre de V par la minimisation d’une énergie :

z ∗ = inf ρ(x)ψ(x, z)dx
z∈V V

Enfin, on peut prouver le résultat suivant [DFG] :

Théorème 1.3.4. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition

de Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n].

Si Π minimise l’énergie :
n
2
F(Ω1 , ..., Ωn , s1 , ..., sn ) = ρ(x)ψsi (x)dx (1.3.7)
i=1 Ωi

alors Π est une partition de Voronoï centrée.

31

TAB . 1.1 – Algorithme de Lloyd
• Initialisation
◦ Partition de Voronoï initiale Π(ψ, S), où S = {s1 , ..., sn }.
• Boucle : Itérer jusqu’à convergence :
◦ Calculer les barycentres des V-régions : S ∗ = {s∗ , ..., s∗ }.
1 n
◦ Construire la Partition de Voronoï Π(ψ, S ∗ )

Notons que la fonctionnelle (1.3.7) dépend aussi bien des régions que des sites, contrairement

à celle déﬁnie par l’équation (1.3.5). Ce problème de minimisation admet une solution, mais elle

n’est généralement pas unique, comme le montrent les Figures 1.7.b et 1.7.c.

Il existe un certain nombre d’approches probabilistes et déterministes pour construire des

partitions de Voronoï centrées. Une des plus célèbres est l’algorithme de Lloyd [Llo82], présenté

dans le Tableau 1.1. Cette méthode, un cas particulier des nuées dynamiques de Diday [DLPT82],

repose sur l’alternance du calcul des barycentres et de la construction des V-partitions.

(a) (b)
F IG . 1.8 – Construction d’une Partition de Voronoï centrée par l’algorithme de Lloyd. a : V-
partition initiale. b : Résultat après 50 itérations.

La Figure 1.8 présente un exemple d’application de cet algorithme. Un ensemble initial de

40 sites a été choisi aléatoirement. La fonction de densité est dans ce cas constante, de sorte que

z ∗ soit le barycentre usuel, et la distance considérée est la distance euclidienne. On peut observer

que les sites tendent à se distribuer uniformément sur l’ensemble.

Chapitre 2

Images et segmentations

Nous nous intéressons dans ce chapitre au passage du monde continu au monde discret ainsi

qu’aux structures mathématiques et algorithmiques qui nous permettront de représenter et mani-

puler les images et leurs segmentations.

2.1 Images

Aﬁn d’appliquer les notions introduites dans le chapitre précédent à la segmentation, l’en-

semble Ω désignera dorénavant le domaine d’une image.

Plus précisément, une image est une fonction u : Ω → (X, d), où le domaine de déﬁnition

Ω est, soit un sous ensemble de Rn dans le cadre continu, soit son intersection par une grille

régulière dans le cadre discret.

Le domaine d’une image 2D est usuellement un rectangle fermé du plan dans le cas continu

et une partie bornée de Z2 dans le cas discret.

Pour les images monochromatiques, l’espace pseudo-métrique d’arrivée (X, d) est (R, ),

l’ensemble des réels muni de la distance usuelle. Le cas des images couleur requiert en revanche

une étude plus détaillée de l’espace des couleurs.

La représentation de la couleur est le sujet de la colorimétrie ; le lecteur intéressé dans ce do-

maine trouvera en [WS82] un ouvrage de référence. Le fondement de cette discipline sont les lois

33

34

expérimentales d’égalisation des couleurs, résumées dans le principe de généralisation trichro-

matique. Selon ce principe, la plupart des stimuli couleur perceptibles par l’œil humain peuvent

s’obtenir par le mélange pondéré de trois stimuli primaires. Les couleurs sont par conséquent

usuellement représentées par des vecteurs dans un espace de dimension trois, d’où X = R3 .

L’espace le plus souvent utilisé est le système RVB, où la couleur d’un pixel est représentée

par le mélange additif des trois canaux chromatiques primaires Rouge, Vert et Bleu. D’une grande

utilité pratique pour le codage, cet espace présente néanmoins deux désavantages majeurs pour

notre application : il ne possède pas de métrique naturelle et il est mal adapté à la perception

humaine.

Outre l’existence d’une distance entre les couleurs, il serait souhaitable que la représentation

sépare l’information de luminosité de celle de chrominance, pour pouvoir inclure les images

monochromatiques comme un cas particulier du même modèle.

Les considérations précédentes nous ont conduit à adopter les standards L∗ ab et L∗ uv de la

Commission Internationale de l’Éclairage (CIE). Ces représentations sont des approximations

de l’espace des couleurs perceptuellement uniforme, où la couleur d’un pixel est décomposée

en une composante de luminosité L∗ et deux composantes chromatiques c1 et c2 ((a, b) et (u, v)

respectivement).

La métrique Riemannienne de l’espace des couleurs est généralement approchée dans les

systèmes L∗ ab et L∗ uv par la distance euclidienne. Cependant, sous certaines conditions d’obser-

vation, le poids relatif de la luminosité et de la chrominance perçues de deux stimuli de couleurs

peut varier [WS82]. Pour prendre en compte ces variations dans notre système, nous utilisons la

formule de distance suivante entre deux couleurs k = (l, c1 , c2 ) et k = (l , c1 , c2 ) de ces espaces :

δ ∗ (k, k ) = (l − l )2 + ξ(c1 − c1 )2 + ξ(c2 − c2 )2 . (2.1.1)

Dans la suite, l’espace pseudo-métrique d’arrivée des images sera (X, d) = (L∗ c1 c2 , δ ∗ ).

Ainsi, lorsque ξ = 0, la seule information prise en compte est la luminosité et on retrouve le cas

35

des images monochromatiques. Par ailleurs, le poids ξ = 1 correspond aux espaces (L∗ ab, ) et

(L∗ uv, ) usuels.

2.2 Composantes connexes

L’objectif de notre travail est la segmentation de bas niveau, c’est-à-dire sans connaissance

préalable du contenu de l’image. Nous supposons donc que l’information des contours des ob-

jets est présente dans l’image originale et considérons comme contours possibles uniquement

ses discontinuités. Ce choix méthodologique, souvent adopté en segmentation morphologique

[Mey01b, Ser04], conduit à des contours parfois moins réguliers que ceux des approches diffé-

rentielles. En revanche, il n’oblige pas à interpréter l’image comme une fonction régulière.

Nous voulons donc construire des partitions métriques du domaine qui ne fragmentent pas

les zones constantes de l’image. Cette propriété est satisfaite lorsque la classe d’équivalence d’un

point x ∈ Ω coïncide avec la composante connexe de u qui contient x, notée Cx (u) et définie

par :

Cx (u) = {y ∈ Ω | ∃γ ∈ Γxy : u(x) = u(y) = u(γ(t)), ∀t ∈ [a, b]} . (2.2.1)

Alternativement, on peut définir Cx (u) comme le plus grand ensemble connexe qui contient x et

où u est constante.

On notera C(u) l’ensemble des composantes connexes de u :

C(u) = {Cx (u) | x ∈ Ω}.

Nous définirons dans la suite des espaces pseudo-métriques tels que x(ψ) = Cx (u). L’es-

pace quotient (Ω(ψ), ψ) est dans ce cas homéomorphe à l’espace des composantes de l’image

(C(u), δ ∗ ) et les régions des partitions métriques considérées sont réunion de composantes connexes

de u.

Remarquons enfin que la non convexité du domaine n’est pas une limitation pour les distances

36

étudiées dans ce travail. En effet, ces distances sont déterminées par les données de l’image, dont

la définition peut être étendue hors du domaine de sorte qu’il contienne les chemins ψ-droits.

2.3 Segmentations

Nous avons jusqu’à présent considéré les segmentations comme des partitions de l’espace ;

cette section présente le formalisme de Morel et Solimini [MS95] pour leur définition en termes

de contours.

2.3.1 Définitions

Soit γ : [a, b] → Ω un chemin. Considérons σ = {t0 , ..., tn } une subdivision finie de [a, b]

telle que a = t0 < t1 < ... < tn = b et notons Φ l’ensemble de ces subdivisions. La longueur

euclidienne de la courbe γ est définie par :
n
L(γ) = sup (γ(ti ), γ(ti−1 )). (2.3.1)
σ∈Φ
i=1

Une courbe rectifiable est une courbe de longueur euclidienne finie. Dans ce cas, on peut

reparamétrer la courbe par son abscisse curviligne, que nous notons l.

Une segmentation K est l’union d’un ensemble fini de courbes rectifiables.

La longueur d’une segmentation, notée L(K), est définie comme l’infimum des longueurs

de tous les ensembles dénombrables de courbes rectifiables dont l’union est K. Si K est l’union

d’un ensemble de courbes rectifiables se rencontrant uniquement en un ensemble dénombrable

de points, alors L(K) est la somme des longueurs des courbes.

Les régions d’une segmentation sont les composantes connexes de ΩK. Elles seront notées

(Ωi )i . La mesure de Lebesgue bidimentionnelle de Ωi est notée |Ωi |.

La frontière commune de deux régions Ωi et Ωj est contenue dans K et notée ∂(Ωi , Ωj ) ou,

en l’absence d’ambiguïté, ∂ij . La frontière de Ωi est notée ∂Ωi .

37

Une courbe de Jordan est une courbe continue telle que ∀s, s ∈]0, 1[, s = s , on a γ(s) =

γ(s ). Si γ(0) = γ(1), la courbe de Jordan est fermée. Si γ(0) et γ(1) diffèrent, ils sont appelés

les extrémités de la courbe. Les autres points sont appelés points intérieurs de la courbe.

Une segmentation est normale1 si elle est l’union d’un ensemble fini de courbes de Jordan

rectifiables, qui se rencontrent entre elles et rencontrent ∂Ω uniquement en leurs extrémités. De

plus, chaque courbe de Jordan sépare deux régions différentes et chaque extrémité est commune

à au moins trois courbes de Jordan.

Les contours d’une segmentation normale sont les courbes de Jordan qui la composent. Les

points de rencontre de la segmentation sont leurs extrémités. Les contours peuvent être définis

de façon équivalente comme les composantes connexes des frontières communes ∂(Ωi , Ωj ).

Les segmentations normales ont les propriétés suivantes :

Une segmentation normale avec α régions peut se décomposer en l’union de α − 1 courbes

de Jordan se rencontrant uniquement sur un ensemble fini de points.

Soit une segmentation normale avec α régions, β contours et η points de rencontre. Alors :

η ≤ 2(α − 1) et β ≤ 3(α − 1) − 2.

2.3.2 Représentation des contours

Une partition a été définie (Définition 1.3.1) comme un recouvrement du domaine en régions

fermées qui se superposent uniquement sur leurs frontières. Dans le cas de l’espace euclidien,

les V-partitions sont effectivement des segmentations normales et l’ensemble des contours K

coïncide avec le V-diagramme. Cependant, en général, l’ensemble des frontières d’une partition

pseudo-métrique peut avoir une aire non nulle. En outre, sur un domaine discret, cet ensemble

peut être fragmenté comme conséquence du processus de discrétisation. Ces considérations nous

ont conduit aux choix méthodologiques que nous décrivons dans ce paragraphe.
1
appelée 1-normale dans [MS95]

38

(a) (b)
F IG . 2.1 – Représentation des contours. a : pixels. b : edgels.

Un premier problème pratique qui se pose est la représentation de la frontière entre deux

régions. Pour les images numériques déﬁnies sur une grille carrée, on représente usuellement

les frontières par un ensemble de pixels ou par les éléments d’une grille duale d’espaces inter-

pixellaires appelés edgels2 , comme le montre la Figure 2.1.

Si on considère le processus d’acquisition de l’image comme l’échantillonnage d’un phéno-

mène continu, le modèle pixellaire semble le plus approprié géométriquement. En effet, puisque

la mesure obtenue dans les pixels frontière est un mélange des mesures des pixels voisins, il est

possible de déduire une estimation sous-pixellaire de la frontière réelle si on maîtrise les condi-

tions d’acquisition de l’image. Ce ne sera généralement pas notre cas. Le modèle pixellaire sur

une grille carrée présente par ailleurs des problèmes en topologie discrète, comme la non validité

du théorème de Jordan ou la nécessité de choisir deux connexités différentes pour une région et

sa frontière (voir par exemple [SM94]).

Nous avons par conséquent adopté le modèle inter-pixellaire qui, du point de vue de la seg-

mentation, est plus naturel et facile à gérer. Nous allons donc considérer en pratique des partitions

qui sont un recouvrement du domaine discret en régions disjointes.
2
edgel : acronyme formé des mots anglais edg-e et el-ement.

39

Définition 2.3.1. Une partition du domaine de définition Ω d’une image numérique est une

famille finie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes :

1. Ωi Ωj = ∅, ∀ i = j.
n
2. Ωi = Ω.
i=1

Nous supposerons dans la suite que les points centraux des edgels d’une partition discrète

sont un échantillonnage des contours d’une segmentation normale.

Pour construire une partition discrète, nous assignons les pixels des frontières pseudo-métriques

à l’une des deux régions qu’ils séparent. Nous verrons dans la quatrième partie que, pour les dis-

tances étudiées, ce choix est secondaire pour la qualité globale de la segmentation.

2.3.3 Images mosaïques

A partir d’une segmentation, on peut construire une approximation régulière par morceaux de

l’image originale en choisissant un modèle, par exemple un spline d’ordre fixé, pour représenter

chaque région. Notre approche se fondant sur l’information de l’image originale, nous utiliserons

l’approximation surtout pour présenter les résultats. Le modèle des régions sera donc constant,

par exemple, la valeur de l’image sur le site, la médiane ou la moyenne sur la région. On obtient

ainsi une reconstruction de l’image constante par morceaux qui sera appelée dans la suite une

image mosaïque ou simplement mosaïque.

2.4 Graphes et arbres

2.4.1 Définitions

Graphes et arbres servent à modéliser les images à différents niveaux d’analyse. Nous rappe-

lons dans ce paragraphe les définitions de ces structures et précisons les notations. Pour plus de

détails, le lecteur peut consulter par exemple [CP95].

40

Un graphe orienté est un couple G = (X, A) où X est un ensemble fini et A est un sous-

ensemble de X 2 définissant une relation binaire sur X.

Les éléments de X sont les sommets du graphe et ceux de A sont les arcs.

On considère l’application V : X → P(X) définie par V (x) = {y ∈ X | (x, y) ∈ A}.

L’ensemble V (x) est appelé un voisinage du sommet x ∈ X. Si y ∈ V (x), on dit que x et y sont

adjacents.

Un élément a ∈ A de la forme a = (x, x) pour x ∈ X est appelé une boucle.

Si les propriétés de G ne dépendent pas du sens des arcs, on dit que G est un graphe non

orienté. On considère dans ce cas les couples non ordonnés a = (x, y), qu’on appelle arêtes.

Un graphe est simple s’il est sans boucles et s’il n’y a jamais plus d’une arête entre deux

sommets donnés.

Un graphe est planaire s’il est possible de le représenter dans un plan sans que deux arcs ne

se croisent.

Un chemin, ou chaîne, entre deux sommets x0 , xn ∈ X est une séquence π = {x0 , x1 , ..., xn }

telle que xi+1 ∈ V (xi ) pour tout i = 0, ..., n − 1. L’ensemble des chemins entre x et y est noté,

comme dans le cas continu, Γxy .

Un cycle est une chemin dont les extrémités coïncident et qui n’utilise pas deux fois le même

arc.

Un graphe est connexe si, pour tout couple de sommets, il existe un chemin les joignant.

Un arbre est un graphe non orienté simple, connexe et sans cycle.

La structure de graphe peut être enrichie en considérant une application à valeurs réelles w

définie sur X ou sur A. Dans le premier cas, on parle d’attribut d’un sommet et, dans le second,

de poids d’une arête. G est appelé dans les deux cas un graphe valué.

41

Image Zones plates Graphe de composantes

F IG . 2.2 – Exemple de graphe de composantes d’une image.

2.4.2 Graphes d’adjacence

Graphe de pixels

Une image peut toujours être traitée comme un graphe de pixels, où les sommets sont les

pixels et les arêtes relient des pixels voisins pour une connexité discrète (usuellement 4, 6 ou 8

connexité). Dans ce cas, on peut assigner comme attribut à chaque sommet la valeur de l’image

dans le pixel. Le poids des arêtes sert à exprimer des relations entre pixels voisins. Ce graphe est

utilisé dans le Chapitre 3 pour implanter les distances pondérées.

Graphe de composantes

Dans le cadre de notre approche, les éléments de base ne sont pas les pixels mais les com-

posantes connexes de l’image. Une première façon d’interpréter les composantes dans le cadre

discret est de considérer des chemins sur le graphe de pixels dans leur déﬁnition (2.2.1). La

composante d’un point est ainsi déﬁnie comme sa zone plate, l’ensemble des points qu’on peut

atteindre en suivant un chemin discret où l’image est constante.

Ainsi, nous utilisons souvent un graphe de composantes à la place du graphe de pixels. Dans

ce graphe, les sommets représentent les zones plates de l’image et leur attribut est la valeur du

canal de luminosité L∗ . Les arêtes sont pondérées par la distance couleur δ ∗ entre deux compo-

santes voisines. Sur cette structure repose une des constructions de la distance étudiée dans le

42

Chapitre 4.

Graphe de régions

Une segmentation est une partition du domaine de l’image et, à toute partition discrète, on

peut associer un graphe appelé graphe d’adjacence de régions (RAG3 ). Les sommets du graphe

sont les parties connexes des régions qui composent la partition. Deux sommets sont reliés par

une arête si les deux régions sont adjacentes, c’est-à-dire s’il existe au moins deux pixels voisins

appartenant chacun à l’une des deux régions. De même que le graphe de composantes, le RAG

dépend du type de connexité entre les pixels. Il est planaire pour la 4-connexité mais pas pour la

8-connexité.

Dans le cas du RAG, nous allons considérer une liste d’attributs pour décrire les caractéris-

tiques internes de chaque région. Le poids des arêtes sera pour sa part une mesure de dissem-

blance entre deux régions adjacentes.

Un avantage du RAG est d’élever le niveau de représentation de l’image en passant des pixels

(ou des composantes connexes) aux régions. Ces graphes se trouvent à la base des représentations

hiérarchiques des images qui seront construites dans la troisième partie du mémoire. Le graphe

de pixels et le graphe de composantes en sont des cas particuliers.

2.4.3 Arbres d’inclusion

La représentation de l’image par un graphe d’adjacence privilégie la relation de connexité.

La relation d’inclusion est pour sa part codiﬁée naturellement par une structure d’arbre.

Arbre de formes

Le graphe de composantes est construit en représentant, dans le cadre discret, les compo-

santes connexes par des zones plates. Pour les images monochromatiques, une alternative est de
3
RAG : de l’anglais Region Adjacency Graph.

43

[u ≥ 0] [u ≥ 1] [u ≥ 2] Arbre de maxima

[u ≤ 2] [u ≤ 1] [u ≤ 0] Arbre de minima

F IG . 2.3 – Exemple d’arbres de minima et de maxima avec l’image de la Figure 2.2.

considérer les ensembles de niveau (voir la Définition 1.3.2).

Les composantes connexes des ensembles de niveau sont ordonnées par l’inclusion (voir

la Figure 2.3). Les ensembles de niveau supérieurs définissent donc un arbre, appelé arbre de

maxima (max-tree), dont les feuilles sont les maxima régionaux de l’image et la racine est le plus

bas niveau [SOG98]. La même construction, réalisée avec les ensembles de niveau inférieurs,

définit un arbre de minima (min-tree). Une implantation efficiente de ces structures est proposée

dans [CNB05].

Les arbres de minima et de maxima sont des structures complémentaires mais redondantes.

Une façon de combiner leurs informations en une structure unique a été proposée par Monasse

[Mon00]. Dans ce travail, les éléments de base sont les "formes", les composantes connexes des

ensembles de niveau (inférieurs et supérieurs) dont on remplit les "trous". Un arbre de formes,

dont les feuilles sont les extrema de l’image sans trous, est alors construit. Cet arbre est une re-

présentation de l’image sans redondance et invariante par changements de contraste. Un exemple

d’arbre de formes est présenté dans la Figure 2.4, où on peut observer que l’information des

formes est codée une seule fois.

Ainsi, nous considérons une deuxième définition discrète de composante. Soit u une image

scalaire et Px la plus petite forme de l’arbre de formes de u qui contient le point x. La composante

44

Image u Arbre de formes

F IG . 2.4 – Exemple d’arbre de formes d’une image.

connexe de u contenant x est donnée par :

Cx (u) = {y ∈ Ω |Py = Px } (2.4.1)

L’arbre de formes est utilisé comme alternative au graphe de composantes dans le Chapitre 4.

Arbre de régions

Un graphe de régions sert à représenter une partition du domaine d’une image. Dans le Cha-

pitre 6, nous nous intéressons à des méthodes de segmentation où les régions d’une partition ini-

tiale sont fusionnées de façon itérative. Un tel algorithme peut s’implanter au moyen d’un RAG,

où la fusion de deux régions connexes se réalise en réunissant les deux sommets correspondants

et en supprimant l’arête qui les joint. Le processus de fusion en entier peut se représenter par un

arbre de régions ordonné selon l’inclusion, comme dans l’exemple de la Figure 2.5.

2.4.4 Distances sur un graphe

Rappelons enﬁn quatre distances classiques qu’on peut construire à partir des chemins d’un

graphe.

Somme des poids :

d1 (x, y) = min w(a).
π∈Γxy
a∈π

45

F IG . 2.5 – Exemple d’arbre de régions. La fusion de deux régions connexes correspond à la
création d’un sommet de l’arbre. Les arêtes codiﬁent la relation d’inclusion.

Poids maximum :

d2 (x, y) = min max w(a).
π∈Γxy a∈π

Somme des attributs :

d3 (x, y) = min w(xi ).
π∈Γxy
xi ∈π

Attribut maximum :

d4 (x, y) = min max w(xi ).
π∈Γxy xi ∈π

Ces distances peuvent s’interpréter en assimilant le graphe à un réseau routier, où les sommets

représentent des villes, l’attribut le péage pour passer par une ville, les arêtes les routes reliant

les villes et leur poids la distance les séparant. Ainsi, d1 mesure la longueur du plus court chemin

entre deux villes et d3 la somme à payer pour emprunter le chemin le moins cher. De même,

d4 mesure le plus petit péage maximum sur les chemins entre deux villes, et d2 la plus petite

distance maximum entre deux villes consécutives des chemins.

Les distances précédentes peuvent se calculer à l’aide d’un algorithme de chemins minimaux

classique comme celui de Dijkstra [Dij59, KR99].

Dans la troisième partie du mémoire, nous construirons un autre type de distances, les ultra-

métriques, sur un graphe de régions.

Deuxième partie

Métriques de chemin

47

Chapitre 3

Distances pondérées

L’application du cadre métrique requiert la définition de distances spécifiques pour traiter

un problème particulier. Dans le cas de la segmentation, la distance doit se construire à partir

des données de l’image, afin d’être représentative de son information géométrique. Par exemple,

segmenter une image au moyen d’une V-partition euclidienne est inapproprié, car le choix d’un

ensemble de sites et d’un domaine détermine les V-régions, indépendamment de l’information

de l’image.

La question qui se pose est donc comment construire de telles distances. La réponse proposée

dans cette partie du mémoire repose sur l’étude des chemins entre points du domaine de l’image.

Dans ce but, une quantité, interprétée comme une notion d’énergie ou de longueur généralisée,

est mesurée le long des chemins. La distance est alors donnée par le minimum de l’énergie sur

tous les chemins entre deux points.

Dans ce chapitre, nous commençons par préciser la définition des métriques de chemin dans

la Section 3.1, pour ensuite nous intéresser à l’exemple le plus classique de ce type de pseudo-

métriques, les distances pondérées.

49

50

3.1 Définition des métriques de chemin

Définition 3.1.1. Une structure de longueur pour l’ensemble Ω [Gro99] est une application

e : ΓΩ → R+ qui satisfait les conditions suivantes :

1. e(γ) = 0 si et seulement si γ est constant.

2. Si γ est la concaténation de γ1 et γ2 , alors e(γ) = e(γ1 ) + e(γ2 ).

3. Si γ : [a, b] → Ω est un chemin et f : [c, d] → [a, b] est un homéomorphisme, alors γ ◦ f

est un chemin et e(γ ◦ f ) = e(γ).

Les deux premières conditions sont la traduction en termes de chemins de la définition de

pseudo-métrique, comme nous le verrons par la suite. La troisième, pour sa part, indique que

e est invariante par changements de paramètre et donc que la longueur est une notion qui agit

directement sur la courbe image du chemin. Notons par ailleurs que la longueur euclidienne

définie en (2.3.1) satisfait la définition précédente.

À partir d’une structure de longueur, on peut définir une distance en considérant sa valeur

minimale sur tous les chemins qui relient deux points de l’ensemble Ω :

Définition 3.1.2. La métrique de chemin ψ induite par la structure de longueur e est définie

par :

ψ(x, y) = inf e(γ), ∀ x, y ∈ Ω.
γ∈Γxy

Vérifions qu’une métrique de chemin est effectivement une pseudo-métrique. Pour la Réflexi-

vité de la Définition 1.2.1, considérons un point x ∈ Ω et le chemin constant γ0 ∈ Γxx défini

par : γ0 (t) = x, ∀t ∈ [a, b]. Puisque γ0 est constant, d’après la Définition 3.1.1, e(γ0 ) = 0 et donc

ψ(x, x) ≤ 0. Le résultat découle de l’hypothèse ψ(x, x) ≥ 0.

Pour prouver l’Inégalité Triangulaire, considérons trois points x, y, z ∈ Ω et notons par Γxˆy
z

l’ensemble des chemins entre x et y obtenus par la concaténation d’un chemin entre x et z et

51

(a) (b)
F IG . 3.1 – Principe de Fermat

d’un chemin entre z et y. On a alors Γxˆy ⊂ Γxy , car l’ensemble des chemins qui passent par z
z

est un sous ensemble de tous les chemins entre x et y. Donc, d’après l’Axiome 2 de la Définition

3.1.1, on obtient :

ψ(x, y) = inf e(γ) ≤ inf e(γ) = inf e(γ1 ) + inf e(γ2 ) = ψ(z, x) + ψ(z, y),
γ∈Γxy γ∈Γxˆy
z γ1 ∈Γzx γ2 ∈Γzy

où γ est la concaténation de γ1 et γ2 .

3.2 Optique géométrique

La notion de chemin minimal trouve son fondement physique dans le domaine de l’optique

géométrique. Nous rappelons dans cette section certains résultats classiques de cette discipline

pour situer les distances pondérées dans notre cadre de travail. Le lecteur trouvera une exposition

détaillée du sujet dans des ouvrages de référence tels [BW80, Sea49, ST91].

Un milieu optique où la vitesse de la lumière est constante est appelé milieu homogène. Un

tel milieu est caractérisé par le nombre n ≥ 1, nommé indice de réfraction et défini par le rapport

entre la vitesse de la lumière dans le vide c0 et sa vitesse c dans le milieu.

Les différentes définitions seront illustrées à l’aide de la Figure 3.1.a, où le point s représente

une source ponctuelle de lumière monochromatique. La ligne horizontale médiane correspond

52

à l’interface entre deux milieux optiques homogènes différents, représentés en blanc et en gris,

avec indices de réfraction n1 et n2 respectivement.

La loi de réflexion de la lumière est connue depuis l’antiquité : si un rayon lumineux part

de s et atteint l’interface, alors une partie de la lumière est réfléchie et l’angle de réflexion est

égal à l’angle d’incidence. Les deux angles sont notés par θ dans le dessin. Héron d’Alexandrie

remarqua que la réflexion obéit à un principe de minimalité puisque, si les deux angles étaient

différents, le temps de parcours de la lumière et la distance parcourue seraient plus grands.

La loi qui régit la réfraction, la partie de la lumière qui traverse l’interface, mit en revanche

beaucoup plus de temps à être élucidée. Si l’indice de réfraction du milieu gris est plus grand que

celui du milieu blanc alors on observe que, comme dans le schéma, le rayon est "plié" vers la

normale à l’interface. L’angle de réfraction α varie cependant de façon non linéaire avec l’angle

d’incidence. Ce ne fut qu’en 1621 que Snell découvrit que le rapport entre les sinus des angles α

et β dépend uniquement des indices de réfraction des deux milieux optiques.

En 1657, Pierre de Fermat, reprenant l’observation d’Héron, eut l’idée d’expliquer la réfrac-

tion et la réflexion comme deux expressions différentes d’un même principe général qu’il énonça

sous la forme suivante : "La Nature agit toujours par le moindre cours". Ce célèbre principe sou-

leva une controverse philosophique qui se poursuit de nos jours, car il accorde une intentionnalité

à la nature qui semble étrangère à l’idée moderne de science.

Le principe de Fermat est pourtant vérifié en optique, où il implique que la trajectoire suivie

par un rayon de lumière monochromatique pour aller d’un point de l’espace à un autre est celle

qui prend le moins de temps. Ainsi, dans un milieu homogène, le temps de parcours est propor-

tionnel à la distance et le rayon lumineux suit la ligne droite entre les deux points. C’est le cas

par exemple pour les points s et y de la Figure 3.1.a, où le rayon est représenté en bleu.

Pour illustrer le comportement de la lumière lorsque le milieu n’est pas homogène, considé-

rons un rayon lumineux qui va du point s au point x et supposons que l’indice de réfraction du

milieu gris est le plus grand. Alors, le principe de Fermat implique que le rayon passera le plus

Arbelaez these

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

En vedette

En vedette (20)

Similaire à Arbelaez these

Similaire à Arbelaez these (20)

Arbelaez these