1. U NIVERSITÉ PARIS DAUPHINE
U.F.R. M ATHÉMATIQUES DE LA D ÉCISION
Nouveau doctorat en sciences
(arrêté du 25 avril 2002)
No. attribué par la bibliothèque
| | | | | | | | | |
Pablo Andrés ARBELÁEZ ESCALANTE
Une approche métrique
pour la
segmentation d’images
Thèse pour l’obtention du titre de
D OCTEUR EN S CIENCES
Spécialité :
M ATHÉMATIQUES A PPLIQUÉES
Le 24 novembre 2005
JURY
Directeur : M. Laurent COHEN Directeur de Recherche CNRS
Président : M. Jean-Michel MOREL Professeur ENS Cachan
Rapporteurs : M. Henri MAITRE Professeur ENST
M. Jean SERRA Directeur de Recherche ENSMP
Examinateurs : Mme. Françoise DIBOS Professeur Paris-Nord
M. Laurent NAJMAN Professeur Associé ESIEE
5. L’université n’entend donner aucune approbation ni improbation aux opinions émises
dans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.
6.
7. Remerciements
L’étude exposée dans ce mémoire a été réalisée dans le cadre de ma thèse docto-
rale au sein du Centre de Recherche en Mathématiques de la Décision (CEREMADE),
à l’Université Paris-Dauphine. Elle n’aurait jamais pu aboutir sans le concours d’un
grand nombre de personnes auxquelles je voudrais exprimer ma profonde reconnais-
sance.
Je tiens à remercier en premier lieu L AURENT C OHEN, mon directeur de thèse, pour
son encadrement, ses conseils et pour la confiance dont il m’a fait preuve en me laissant
une liberté totale dans le choix du sujet et l’orientation de ma recherche.
Je voudrais exprimer ma sincère gratitude aux membres de mon Jury de thèse.
J EAN -M ICHEL M OREL, pour l’honneur qu’il me fait de le présider ; ses qualités hu-
maines et scientifiques sont pour moi une source constante d’inspiration. J EAN S ERRA
et H ENRI M AÎTRE, pour l’intérêt qu’ils ont manifesté à mon travail en acceptant d’en
être rapporteurs ; leur regard et leurs commentaires m’ont permis de l’améliorer gran-
dement. F RANÇOISE D IBOS, dont le cours de DEA m’a initié au monde des images,
pour avoir accepté de faire partie du Jury. L AURENT NAJMAN, pour avoir bien voulu
examiner cette étude, dont ses recherches sur la LPE ont constitué un point de départ.
Je remercie également les membres du CEREMADE, les thésards du groupe Images
et, plus particulièrement, O LIVIA S ANCHEZ, C LAIRE J ONCHERY, F LORENT R AN -
CHIN et S YLVAIN P ELLETIER ; sans eux, je me serais senti étranger au labo. Merci
aussi à M ICHEL VANBREUGEL pour sa patience, sa disponibilité et son aide avec les
manips et à J OSETTE L ÉVY pour son assistance lors des missions.
D’autre part, je voudrais remercier toutes les personnes avec qui j’ai eu la chance
d’avoir d’enrichissants échanges scientifiques. En particulier, C ORINNE VACHIER,
pour l’introduction à la segmentation morphologique qu’elle m’a faite en début de
thèse et qui a grandement influencé la suite des travaux. PASCAL M ONASSE pour les
discussions sur la FLST et pour avoir eu la générosité de me prêter sa copie de l’article
de Kronrod, ainsi que sa précieuse traduction à l’anglais. M ICHEL C OUPRIE pour la
mise à disposition du logiciel PINK.
8. Je remercie affectueusement mes parents, ma famille et mes amis pour leur sou-
tien permanent et inconditionnel. Parmi eux, une pensée spéciale pour E MMANUELLE
P ORCHER, qui a accepté le fardeau de corriger la version préliminaire de ce manuscrit.
Je ne saurais lui exprimer ma reconnaissance pour sa solidarité et son amitié en ces
quelques lignes.
Quiero agradecer finalmente a C AMILO, H EDDA, M ARIA J OSÉ y M ARIA PATRI -
CIA , los hermanos que la vida me ha dado y que me acompañan siempre y a ROXANA
e I RENE, quienes dan sentido a mi existencia.
15. Introduction
Motivations
Perception visuelle
The Unicorn looked dreamily at Alice, and said : "Talk, child."
Alice could not help her lips curling up into a smile as she began : "Do you know, I always
thought Unicorns were fabulous monsters, too ? I never saw one alive before !"
"Well, now that we have seen each other," said the Unicorn, "if you’ll believe in me, I’ll
believe in you. Is that a bargain ?"
Lewis Carroll. Through the Looking-Glass.
Vision artificielle
La vision artificielle, ou vision par ordinateur, est la discipline qui cherche à reproduire les
processus visuels au moyen de machines. La vue nous permet de réaliser une large diversité
de tâches dès le plus jeune âge ; avant même l’acquisition du langage, un enfant de dix-huit
mois peut reconnaître sans difficulté les personnes de son entourage sur une photo, éviter un
obstacle sur son chemin ou identifier un objet étranger à son environnement familier. La vision
semblerait donc faire partie des processus cognitifs les plus élémentaires et son étude pourrait
représenter un raccourci pour comprendre les mécanismes de l’intelligence humaine. Si tel est
le cas, nous sommes encore loin de dévoiler tous les mystères du cerveau. En 1968, l’ordinateur
du film 2001 : L’Odyssée de l’Espace, de Stanley Kubrick, reconnaissait des humains à partir
d’esquisses. Une telle prouesse relève aujourd’hui encore du domaine de la science fiction.
1
16. 2
Images naturelles
De quel type d’information notre cerveau dispose-t-il pour voir ? La structure anatomique de
notre appareil visuel est d’une complexité considérable, mais les stades premiers de l’acquisition
des stimuli visuels sont schématiquement simples. Suite à une transformation optique réalisée
dans la partie antérieure du globule oculaire, le flot lumineux est projeté sur la rétine, où une
image rétinienne se forme. La membrane rétinienne est tapissée de millions de cellules, appelées
photorécepteurs, qui réagissent aux différentes longueurs d’onde de la lumière. Elles transmettent
le signal au nerf optique, qui l’achemine vers le cortex visuel.
L’image numérique est un modèle naturel des données d’entrée de notre système visuel. Une
image numérique représentant une scène du monde réel, ou image naturelle, est un tableau où
chaque case, ou pixel1 , codifie une teinte de gris ou une couleur. Une image est donc consti-
tuée d’un grand volume de données locales et non structurées, dont l’analyse est le propos des
systèmes de vision artificielle.
Segmentation
Lorsqu’un être humain observe une image naturelle, il voit généralement des objets phy-
siques ou leurs parties. Il peut donc diviser l’image en régions, ou segments, les représentant.
Nous allons étudier dans ce mémoire comment une machine peut reproduire cette tâche de seg-
mentation.
La segmentation est un processus de synthèse, visant à extraire les caractéristiques géomé-
triques des images en faisant abstraction des nuances de couleur, des reflets, des transparences,
des ombres, des textures et autres éléments qui constituent l’incroyable richesse de l’information
visuelle.
Comment aborder un tel problème ? Sur l’image de la Figure 1.a, on voit un dalmatien sur
une pelouse. On peut donc représenter cette information sémantique par la segmentation de la
1
pixel : de l’anglais pic-ture el-ement
17. 3
(a) (b)
F IG . 1 – Exemple de segmentation d’une image naturelle.
partie (b), où la forme du chien se détache du fond. Comment passer de l’un à l’autre ? Comment
extraire ces régions d’un tableau de plusieurs millions de pixels, chacun d’entre eux teint d’une
couleur, parmi des millions ? Est-ce uniquement parce qu’un être humain reconnaît le chien qu’il
est capable de tracer ses contours ?
Les travaux de psychologues qui ont étudié la vision humaine au XXe siècle, et notamment
l’école du Gestalt et Juletz, suggèrent que notre perception visuelle agit plutôt dans la direction
inverse (voir [Gor97, Pal99] pour une synthèse récente du sujet). Ces chercheurs ont postulé l’hy-
pothèse d’un traitement de bas niveau agissant lors des stades initiaux de l’acquisition des stimuli
visuels, indépendant de l’information sémantique, et dont le rôle principal serait de structurer le
flot de données brutes perçues par la rétine. L’extraction des caractéristiques géométriques de
l’image rétinienne permettrait dans un second temps la réalisation de tâches de haut niveau,
comme la reconnaissance et la catégorisation, où une signification sémantique est attribuée à
l’information visuelle.
La démarche méthodologique que nous suivons pour aborder le problème de la segmentation
[Mar82, MS95] s’inspire de ces idées. Nous chercherons donc à effectuer le traitement de bas
niveau en segmentant l’image uniquement à partir de ses données physiques, sans connaître
préalablement son contenu.
18. 4
F IG . 2 – Segmentation et information préalable.
Information sémantique
La segmentation de bas niveau est souvent considérée comme la clef de voûte de la vision
artificielle. Si on était en mesure de représenter automatiquement chaque objet de l’image par
une région, alors la compréhension de son contenu sémantique serait amplement facilitée. On
pourrait par exemple identifier le chien de la Figure 1 en utilisant des attributs de la région telles
la forme, la couleur, la taille, la texture, etc.
Remarquons néanmoins qu’une approche fondée uniquement sur les données de l’image ne
peut expliquer que partiellement le fonctionnement de la vision humaine. Les interactions entre
information physique et sémantique dans notre cerveau sont certainement beaucoup plus subtiles
et complexes que notre modèle d’étude ne le laisse entendre. Observons par exemple la Figure
2, photographie attribuée à Ronald C. James [Mar82]. Bien qu’on puisse décrire cette image
et la Figure 1 avec les mêmes mots, il est difficile de s’en apercevoir au premier coup d’oeil.
En revanche, une fois qu’on l’a identifié, on voit clairement le chien se détacher du fond et
l’organisation perceptuelle de la scène ne présente plus d’ambiguïtés. On pourrait même essayer
de tracer ses contours, mais quelle proportion de ces contours se trouve réellement dans l’image ?
Peut-on réaliser cette tâche si on n’a jamais vu un dalmatien ? Cet exemple est-il un cas limite ou
typique du fonctionnement de notre appareil visuel ?
19. 5
La question de fond qui se pose est de savoir s’il est possible de quantifier le rôle de l’in-
formation sémantique dans la segmentation d’images naturelles. Notre façon d’y répondre sera
de créer un système de segmentation de bas niveau et de comparer sa performance à celle des
Humains sur une large base d’images naturelles.
Segmentation hiérarchique
Pour segmenter une image naturelle, un Humain identifie des objets physiques et démarque
leurs contours jusqu’à un certain niveau de détail, donné par l’attention qu’il leur accorde. Si on
suppose que tous les sujets d’un groupe d’Humains perçoivent les mêmes objets dans une image,
alors la superposition des contours (ou l’intersection des segments) de leurs segmentations four-
nit le plus fin niveau de détail considéré (voir la Figure 7.2, p. 174), aux erreurs de localisation
près. Les détails peuvent alors se regrouper en objets et puis en ensembles d’objets, etc. L’or-
ganisation perceptuelle de l’image peut donc se représenter par un arbre de régions, ordonné
selon l’inclusion, comme celui de la Figure 3. La racine de l’arbre perceptuel est la scène entière,
les feuilles sont les plus fins détails et chaque région représente un objet à une certaine échelle
d’observation.
Si on demandait à chaque sujet de construire un arbre perceptuel, on obtiendrait sans doute,
comme pour les segmentations, des résultats différents. Notre hypothèse de travail sera qu’on
peut reconstruire à partir des segmentations humaines un arbre qui explique le contenu séman-
tique de l’image. Les différentes segmentations peuvent alors s’interpréter comme un élagage de
l’arbre par l’attention de chaque sujet.
Dans l’expérience de la Figure 3, les instructions données aux sujets spécifiaient que toutes
les régions devaient avoir la même importance [Mar02], les encourageant ainsi à segmenter à
échelle constante. Le résultat montre que la notion d’échelle est subjective et varie d’un sujet à
un autre. Il s’agit en outre d’une information de haut niveau, déterminée par le contenu séman-
tique. Si on devait par exemple diviser en deux régions un portrait, probablement tous les sujets
20. 6
Image originale Segmentations humaines Arbre perceptuel
Segmentation 1 Segmentation 1 Coupe 1
Segmentation 2 Segmentation 2 Coupe 2
Segmentation 3 Segmentation 3 Coupe 3
F IG . 3 – Organisation hiérarchique de la perception visuelle humaine. Haut : Image originale,
segmentations humaines superposées et arbre perceptuel possible. Lignes 2 à 4 : Trois segmen-
tations humaines et coupes correspondantes dans l’arbre.
21. 7
sépareraient la figure humaine du fond, se souciant peu des données physiques de l’image.
L’importance de l’information préalable dans l’organisation perceptuelle rend vaine la re-
construction d’un arbre perceptuel au moyen d’une approche de bas niveau comme la nôtre. La
structure hiérarchique de la perception humaine suggère néanmoins qu’une stratégie à plusieurs
niveaux d’observation, ou multi-échelles, est souhaitable pour l’étude de la segmentation.
Présentation de l’approche
Les observations des pages précédentes avaient pour objectif de sensibiliser le lecteur à l’in-
térêt de l’étude de la segmentation et à ses difficultés intrinsèques. La vision artificielle est une
discipline jeune dont les principaux problèmes restent encore à élucider. Dans le cas de la seg-
mentation, le niveau de performance des techniques actuelles est encore loin de celui atteint par
les Humains. Le présent mémoire expose les travaux réalisés au cours de notre thèse doctorale
pour étudier la segmentation d’images naturelles. L’approche proposée, délibérément naïve, est
construite à partir des notions qui nous semblent centrales au problème.
Cadre de travail
La segmentation peut se concevoir comme un processus de regroupement perceptuel. Une
façon naturelle de regrouper ou de séparer des données est de les comparer au moyen d’une
distance. Ceci nous a conduit à formuler le problème dans le cadre métrique et à étudier les
partitions de l’espace induites par une distance. Deux types de partitions métriques, illustrés dans
la Figure 1.1, sont initialement considérées. Les premières, appelées partitions par seuillage,
sont obtenues en séparant des autres points de l’espace ceux dont la distance à un ensemble
est inférieure à un certain seuil. Les secondes, nommées partitions de Voronoï, décomposent
l’espace par rapport à une famille de points, ou sites, en assignant chaque point au site le plus
proche.
Le Chapitre 1 du mémoire présente les fondements du formalisme métrique. Cette première
22. 8
partie est complétée par le Chapitre 2, qui traite des images ainsi que des structures pour les
représenter et les manipuler.
L’application de la théorie métrique nécessite la définition de distances appropriées pour
traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent à
partir des données de l’image. Les deuxième et troisième parties du mémoire présentent deux
voies pour atteindre ce but.
Métriques de chemin
La deuxième partie s’intéresse aux métriques de chemin, définies en mesurant le minimum de
la longueur des chemins entre points de l’espace. À chaque notion de longueur correspond une
distance différente. Nous présentons dans le Chapitre 3 l’exemple le plus classique, les distances
pondérées, ainsi que leurs applications principales à la segmentation. Dans le Chapitre 4, nous
proposons l’étude de la distance appelée variation de chemin, obtenue en considérant comme
longueur la variation totale de l’image sur le chemin.
Ultramétriques
La caractéristique principale de la perception visuelle humaine est son organisation hiérar-
chique. Cette constatation suggère d’approcher la segmentation comme un problème de classifi-
cation hiérarchique des données, voie que nous explorons dans la troisième partie du mémoire.
Le Chapitre 5 rappèle les éléments de base de cette théorie, issue historiquement du domaine de
la taxinomie numérique. Dans cette perspective, il semble plus approprié d’étudier la segmenta-
tion au moyen d’une famille de partitions emboîtées, plutôt qu’une partition unique. Ajoutée à la
notion d’échelle, cette idée conduit à la structure de hiérarchie indicée.
Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances appelées
ultramétriques. Ces distances induisent un nouveau type de partitions métriques, les partitions
ultramétriques, qui sont à la fois des partitions par seuillage et de Voronoï. Nous abordons dans
23. 9
le Chapitre 6 le problème de la construction d’ultramétriques significatives pour la segmentation.
Dans ce but, nous remarquons que l’information géométrique des objets est en grande partie
exprimée dans leurs contours. Ainsi, nous proposons des ultramétriques spécifiques pour l’ex-
traction des contours des images naturelles. Ces distances sont déterminées principalement par
l’information de frontière des régions, qui est ensuite complétée par leurs attributs internes.
Évaluation des résultats
La démarche méthodologique suivie consiste à utiliser uniquement l’information de bas ni-
veau, retardant le plus possible l’utilisation de la connaissance sémantique dans le processus de
segmentation. Ainsi, nous exprimons systématiquement les degrés de liberté de notre système
sous forme de paramètres et interprétons leur ajustement comme l’introduction d’information de
plus haut niveau sur la structure géométrique des objets. La dernière partie du mémoire s’inté-
resse à l’inclusion de ce type d’information dans notre système de segmentation. Nous présentons
dans le Chapitre 7 une méthodologie générale pour mesurer la qualité d’une segmentation par
rapport à une référence. Cette vérité terrain contient l’information préalable, qui est dans notre
cas composée de segmentations humaines d’images naturelles. Ce cadre nous permet finalement
dans le Chapitre 8 d’optimiser les paramètres du système, d’évaluer quantitativement la perti-
nence de notre approche, et de la comparer à d’autres méthodes de segmentation.
27. Chapitre 1
Distances et partitions
1.1 Introduction
La notion de distance est intimement liée à notre façon d’appréhender le monde. Qu’il
s’agisse d’objets physiques ou de concepts, il nous semble naturel de comparer deux éléments
d’un ensemble en disant qu’ils sont "proches" ou "éloignés". La formalisation mathématique la
plus répandue de cette idée intuitive est celle d’espace métrique, où les éléments de l’ensemble
sont appelés points et la distance est mesurée avec des nombres réels positifs.
Les distances sont en particulier utilisées pour décomposer des ensembles. Dans cette op-
tique, deux stratégies semblent naturelles. La première consiste à considérer un point ou un
ensemble initial S et à diviser les points de l’espace selon que leur distance à S est inférieure
ou supérieure à un seuil. Nous appelons cette approche partition par seuillage de la distance.
La Figure 1.1.a présente un exemple où S est un point isolé. Dans ce cas, l’ensemble de niveau
inférieur de la distance est la boule centrée en S.
La deuxième stratégie consiste à se donner une famille de points ou de sous-ensembles, ap-
pelés sites, et à assigner chaque point de l’espace au site le plus proche. Cette construction est
connue sous le nom de partition de Voronoï et les régions qu’elle définit sont souvent nom-
mées régions de Voronoï. La Figure 1.1.b présente une partition de Voronoï classique. Dans cet
exemple, un rectangle du plan est divisé en mesurant la distance euclidienne entre chaque point
13
28. 14
(a) (b)
F IG . 1.1 – Exemple de partitions de l’espace induites par la distance euclidienne. a : partition
par seuillage. b : partition de Voronoï.
et quatre sites. Les régions de Voronoï sont ici des polygones convexes.
De nombreux objets naturels, comme ceux des Figures 1.2.a et 1.2.b, présentent une structure
similaire aux partitions de Voronoï. Il n’est donc guère surprenant que cette notion soit de longue
date familière au monde scientifique. En 1644, Descartes utilisait déjà des constructions proches
des partitions de Voronoï dans ses Principia Philosophiae [Des44]. La Figure 1.2.c reproduit
par exemple une illustration employée par l’auteur pour décrire la distribution de la matière aux
alentours du système solaire.
Les premières formalisations du concept sont attribuées à Dirichlet [Dir50] et à Voronoï
[Vor07, Vor08, Vor09] dans le cadre de leurs études sur les formes quadratiques. Cependant,
grâce à la nature hautement intuitive de sa définition, la partition de Voronoï fut redécouverte
indépendamment dans des domaines très divers. Ainsi, les régions de Voronoï sont fréquemment
appelées pleisohedra en cristallographie, polygones de Thiessen en météorologie, régions de
Wigner-Seitz en chimie, ou encore zones d’influence en morphologie mathématique.
Depuis son introduction, la partition de Voronoï a trouvé son application dans un très large
spectre de disciplines et a fait l’objet de nombreuses généralisations. Le livre de Okabe et al.
[OBSC02] et la monographie de Aurenhammer et Klein [AK00] sont deux ouvrages de référence
sur le sujet. Parmi les applications des Partitions de Voronoï à l’analyse d’images, on peut citer
29. 15
(a) (b) (c)
F IG . 1.2 – a et b : Structures naturelles semblables à une partition de Voronoï. c : Représentation
des alentours du système solaire par Descartes : S désigne le soleil, F une étoile proche et la
courbe qui passe par les points E et V décrit la trajectoire d’un comète.
la compression [AAS85], la représentation des formes [MR96] ou la classification des textures
[TJ90].
Voronoï fut aussi le premier à remarquer qu’une partition duale de l’espace peut être définie
en joignant par un segment de droite tous les sites dont les régions sont adjacentes. Cette autre
structure, connue aujourd’hui sous le nom de triangulation de Delaunay, est aussi largement
utilisée. Son étude dépasse cependant le cadre du présent travail. Le lecteur intéressé trouvera
dans [OBSC02] un traitement exhaustif du sujet.
Ce premier chapitre présente le cadre mathématique de notre étude ; les principales notions
sont définies et les notations employées tout au long du mémoire sont introduites. Nous commen-
çons par rappeler les bases du formalisme métrique pour nous intéresser ensuite aux partitions
de l’espace induites par une distance.
30. 16
1.2 Espaces pseudo-métriques
1.2.1 Définitions
Définition 1.2.1. Une pseudo-métrique [Kel75] sur un ensemble Ω est une application ψ :
Ω × Ω → R qui satisfait les axiomes suivants :
Réflexivité :
ψ(x, x) = 0, ∀x ∈ Ω. (1.2.1)
Inégalité Triangulaire :
ψ(x, y) ≤ ψ(z, x) + ψ(z, y), ∀x, y, z ∈ Ω. (1.2.2)
Le couple (Ω, ψ) est appelé un espace pseudo-métrique et le nombre ψ(x, y) est la distance
entre les points x et y. Les pseudo-métriques sont parfois aussi appelées écarts finis [Kur66].
Les deux propriétés suivantes sont conséquence immédiate de la Définition 1.2.1 :
Proposition 1.2.1. Si (Ω, ψ) est un espace pseudo-métrique, alors :
Symétrie :
ψ(x, y) = ψ(y, x), ∀x, y ∈ Ω. (1.2.3)
Positivité :
0 ≤ ψ(z, y), ∀z, y ∈ Ω. (1.2.4)
Démonstration. Pour prouver la Symétrie, considérons l’Inégalité Triangulaire en remplaçant z
par y :
ψ(x, y) ≤ ψ(y, x) + ψ(y, y).
Or, d’après la Réflexivité, ψ(y, y) = 0, donc :
ψ(x, y) ≤ ψ(y, x).
31. 17
En inversant les rôles de x et y on obtient l’inégalité inverse ψ(y, x) ≤ ψ(x, y), d’où le résultat.
Prouvons la Positivité. D’après l’Inégalité Triangulaire avec x = y, on a :
ψ(y, y) ≤ ψ(z, y) + ψ(z, y)
et donc, d’après la Réflexivité, 0 ≤ ψ(z, y).
Souvent, la structure métrique est utilisée pour organiser les points de l’espace par rapport à
un point ou un ensemble fixé.
La distance à un point s ∈ Ω est l’application d’une seule variable ψs : Ω → R+ donnée
par :
ψs (x) = ψ(x, s), ∀ x ∈ Ω.
La distance à un ensemble S ⊂ Ω est définie comme le minimum de la distance aux points de
S:
ψS (x) = inf ψs (x), ∀ x ∈ Ω. (1.2.5)
s∈S
La boule (ouverte) centrée en un point s ∈ Ω et de rayon r > 0 est définie comme dans un
espace métrique :
Bs (r) = {x ∈ Ω | ψ(s, x) < r}
On prouve que la famille de boules
B = {Bs (r) | s ∈ Ω, r > 0}
est une base pour une topologie, nommée topologie pseudo-métrique de Ω induite par ψ.
1.2.2 Espace quotient
Remarquons que la seule différence entre la Définition 1.2.1 et celle d’un espace métrique
est la Réflexivité, qui remplace l’axiome de Séparation habituel :
32. 18
ψ(x, y) = 0 ⇔ x = y.
Par conséquent, deux points distincts peuvent se trouver à distance nulle dans un espace
pseudo-métrique.
Cependant, la relation ∼ψ , définie dans Ω × Ω par la formule
x ∼ψ y ⇔ ψ(x, y) = 0
satisfait clairement les trois propriétés suivantes :
x ∼ψ x, ∀x ∈ Ω.
x ∼ψ y ⇔ y ∼ψ x.
Si x ∼ψ y et y ∼ψ z, alors x ∼ψ z.
La relation ∼ψ est donc une relation d’équivalence et on peut considérer la classe d’équiva-
lence d’un point x, formée par tous les points qui sont à distance nulle de x :
x(ψ) = { y ∈ Ω | ψ(x, y) = 0}.
ˆ
Ainsi, x(ψ) est la fermeture de x pour la topologie pseudo-métrique. Les classes d’équivalence
ˆ
indiquent le niveau de résolution de l’espace, en dessous duquel la distance est aveugle.
L’ensemble des classes d’équivalence est noté par :
Ω(ψ) = {ˆ(ψ)| x ∈ Ω}.
x
Une topologie pour Ω(ψ) est alors définie en considérant le système de voisinages suivant :
Soit U une partie ouverte de Ω pour la topologie pseudo-métrique qui contient la classe
x(ψ). Un voisinage de x(ψ) dans Ω(ψ) est défini comme l’union de tous les y (ψ) ∈ Ω(ψ) tels
ˆ ˆ ˆ
que y (ψ) ⊂ U dans Ω.
ˆ
33. 19
L’ensemble Ω(ψ) muni de cette topologie est appelé l’espace quotient de Ω sous ∼ψ . Ainsi,
la projection naturelle πψ : Ω → Ω donnée par la formule πψ (x) = x(ψ), ∀ x ∈ Ω est une
ˆ
fonction continue.
ˆ ˆx ˆ
Par conséquent, l’application ψ : Ω(ψ) × Ω(ψ) → R définie par ψ(ˆ, y ) = ψ(x, y) est une
métrique pour l’espace quotient. Remarquons que, dans le cas où ψ est déjà une métrique, alors
l’espace quotient Ω(ψ) est homéomorphe à Ω.
1.2.3 Exemples
Illustrons à présent les définitions avec trois exemples élémentaires de pseudo-métriques dans
le plan : la distance euclidienne et deux projections.
Exemple 1
L’espace métrique canonique est l’espace euclidien (Rn , ), où la distance entre deux points
x = (x1 , ..., xn ) et y = (y1 , ..., yn ) est donnée par la formule de Pythagore :
n 1/2
2
(x, y) = (xi − yi ) .
i=1
Puisque est une métrique, l’espace quotient Rn ( ) coïncide avec Rn et s( ), la classe d’équiva-
ˆ
lence du point s, est réduite au singleton {s}.
La Figure 1.3 montre deux exemples de distance euclidienne à un ensemble S ⊂ R2 . En
haut, S est réduit à un point isolé et le graphe de S est un cône. Dans l’exemple d’en bas, S est
une courbe. Cette figure illustre aussi deux façons de présenter la distance à un sous-ensemble
du plan. La première est l’image des intensités (au centre), où le niveau de gris de chaque pixel
est proportionnel à sa distance à S, et la seconde est le graphe (à droite), comme sous-ensemble
de R3 :
{(x, ψS (x)) | x ∈ R2 }.
34. 20
S s s
(a) (b) (c)
F IG . 1.3 – a : Ensemble de référence S : un point isolé (haut) et une courbe (bas). b : Images
des intensités de la distance euclidienne à S. c : Graphes de S .
Exemple 2
Soit l’application ψ 1 : R2 × R2 → R définie, pour tout couple de points x = (x1 , x2 ), y =
(y1 , y2 ) ∈ R2 , par la formule :
ψ 1 (x, y) = |x2 − y2 | = (x2 , y2 ).
Remarquons que, puisque (R, ) est un espace métrique, ψ 1 satisfait les deux axiomes de la
Définition 1.2.1 :
ψ 1 (x, x) = |x2 − x2 | = 0, ∀x ∈ Ω.
ψ 1 (x, y) = |x2 − y2 | ≤ |z2 − x2 | + |z2 − y2 | = ψ 1 (z, x) + ψ 1 (z, y), ∀x, y, z ∈ Ω.
Ainsi, (R2 , ψ 1 ) est un espace pseudo-métrique. Cet espace n’est cependant pas métrique, car
la classe d’équivalence d’un point s = (s1 , s2 ) correspond à la droite horizontale qui passe par
s:
s(ψ 1 ) = { y ∈ R2 | ψ 1 (s, y) = 0} = { (y1 , y2 ) ∈ R2 | y2 = s2 }.
ˆ
35. 21
s(ψ 1 )
ˆ 1
ψs 1
ψs
s(ψ 2 )
ˆ 2
ψs 2
ψs
(a) (b) (c)
F IG . 1.4 – a : Classes d’équivalence d’un point. b : Images des intensités de la distance au point.
c : Graphes de la distance au point.
L’espace quotient R2 (ψ 1 ) est donc homéomorphe à la droite des réels (R, ). Enfin, la projection
πψ1 est ici la projection du plan cartésien sur l’axe des ordonnées : πψ1 (x1 , x2 ) = x2 , et la
ˆ
métrique quotient ψ 1 coïncide avec la distance euclidienne dans R.
Exemple 3
Exprimons enfin les points du plan en coordonnées polaires et considérons l’application ψ 2
définie, pour tout couple de points x = (r1 , θ1 ), y = (r2 , θ2 ) ∈ R+ × [0, 2π[ , par la formule :
ψ 2 (x, y) = |r1 − r2 | = (r1 , r2 ).
La vérification que ψ 2 est une pseudo-métrique est identique à l’Exemple 2. Par ailleurs, puisque
ψ 2 mesure la différence absolue des modules des points, la classe d’équivalence d’un point s =
(r0 , θ0 ) est le cercle centré en l’origine O et de rayon r0 :
s(ψ 2 ) = { (r, θ) ∈ R+ × [0, 2π[ | r = r0 }.
ˆ
36. 22
L’espace quotient de R+ × [0, 2π[ sous ψ 2 est une semi-droite munie de la distance euclidienne.
La Figure 1.4 illustre les définitions avec les pseudo-métriques ψ 1 et ψ 2 , dans le cas où S est
un point isolé.
Notons enfin que, pour ces exemples simples de pseudo-métriques, l’application ψs mesure
la distance euclidienne à l’ensemble s(ψ).
ˆ
1.2.4 Chemins et convexité
La notion usuelle de convexité dans Rn repose sur la distance euclidienne. On dit qu’un
ensemble Ω ⊂ Rn est convexe si, pour tout couple de points, le segment de droite les joignant
est entièrement contenu dans Ω. L’étude des partitions d’un espace pseudo-métrique requiert
l’extension de ce concept.
Un chemin γ entre deux points x, y ∈ Ω est une application continue d’un segment de (R, )
dans l’espace (Ω, ψ) :
γ : [a, b] → Ω tel que γ(a) = x et γ(b) = y.
L’image d’un chemin est appelée une courbe de Ω et notée aussi γ :
γ = {x ∈ Ω | ∃t ∈ [a, b] : x = γ(t)}
L’ensemble des chemins entre x et y est noté Γxy et l’ensemble des chemins entre points de
Ω est noté ΓΩ .
Un ensemble Ω est connexe par arcs s’il existe un chemin reliant entre eux tout couple de
points.
Un chemin γ ∈ Γxy est ψ−droit s’il satisfait la condition suivante :
∀ t ∈ [a, b], ψ(x, y) = ψ(x, γ(t)) + ψ(γ(t), y)
Les chemins ψ−droits sont donc l’équivalent des segments de droite pour une distance arbitraire.
Ce sont les chemins pour lesquels l’Inégalité Triangulaire devient une égalité. Notons cependant
37. 23
que, à la différence de l’espace euclidien, un chemin ψ−droit entre deux points d’un espace
pseudo-métrique peut ne pas être unique.
Ainsi, la notion de convexité dans notre cadre de travail est la suivante :
Définition 1.2.2. Un espace pseudo-métrique (Ω, ψ) est convexe si et seulement si, pour tout
couple de points, il existe un chemin ψ−droit les joignant.
On dira aussi que l’ensemble Ω est convexe pour ψ. Notons enfin que tout espace convexe
est connexe par arcs.
1.3 Partitions métriques
Cette section s’intéresse aux partitions induites par une distance. Nous commençons par pré-
ciser la notion de décomposition de l’espace considérée.
Définition 1.3.1. Soit (Ω, ψ) un espace pseudo-métrique. Une partition de Ω est une famille
finie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes :
Ωi est fermé, ∀i ∈ {1, ..., n}. (1.3.1)
[Ωi ∂Ωi ] [Ωj ∂Ωj ] = ∅, ∀ i = j. (1.3.2)
n
Ωi = Ω. (1.3.3)
i=1
Une partition est donc un recouvrement de Ω en régions fermées qui se superposent unique-
ment sur leurs frontières.
38. 24
1.3.1 Partitions par seuillage
Un premier type de partitions métriques repose sur la notion d’ensemble de niveau d’une
fonction scalaire.
Définition 1.3.2. L’isoensemble de niveau k d’une fonction F : Ω → R est défini par :
[F = k] = F −1 (k).
L’ensemble de niveau inférieur (au niveau k) d’une fonction F : Ω → R est donné par :
[F ≤ k] = {x ∈ Ω | F (x) ≤ k}.
De même, on définit l’ensemble de niveau supérieur (au niveau k) de F :
[F ≥ k] = {x ∈ Ω | F (x) ≥ k}.
Si on se donne un ensemble de référence S ⊂ Ω, une première façon de décomposer un
espace pseudo-métrique (Ω, ψ) est de considérer les ensembles de niveau de la fonction scalaire
ψS . Ainsi, on peut partager les points de l’espace entre ceux qui se trouvent à une distance de S
inférieure ou égale à un seuil k :
[ψS ≤ k] = {x ∈ Ω | ψS (x) ≤ k}
et ceux dont la distance à S est supérieure ou égale à k :
[ψS ≥ k] = {x ∈ Ω | ψS (x) ≥ k}.
Remarquons que, si S est connexe, alors l’ensemble de niveau inférieur de ψS l’est aussi. En
revanche, l’ensemble de niveau supérieur de la distance à S, [ψS ≥ k], peut posséder plusieurs
composantes connexes, notées [ψS ≥ k]1 , ..., [ψS ≥ k]q .
39. 25
Π( , {s}, k) Π(ψ 1 , {s}, k) Π(ψ 2 , {s}, k)
F IG . 1.5 – Exemples de partitions par seuillage de la distance à un point.
Nous appelons partition par seuillage de la distance l’ensemble :
Π(ψ, S, k) = {[ψS ≤ k], [ψS ≥ k]1 , ..., [ψS ≥ k]q }
En termes morphologiques, la construction de Π(ψ, S, k) est équivalente à la dilatation de S
lorsque l’élément structurant est une boule de rayon k pour la distance ψ.
La Figure 1.5 montre trois exemples de ce type de partitions. L’ensemble initial est le point
s de la Figure 1.4 et les pseudo-métriques sont celles de la Section 1.2.3. Dans chaque cas, le
niveau k à été fixé à 3/10 du maximum de la distance sur l’ensemble.
1.3.2 Partitions de Voronoï
Une deuxième façon de décomposer l’espace à partir de sa structure métrique est de consi-
dérer les "régions d’attraction" d’un ensemble de points fixés appelés, selon le contexte, sites,
sources ou générateurs.
Définition 1.3.3. Soit (Ω, ψ) un espace pseudo-métrique fermé et S = {s1 , ..., sn } ⊆ Ω un
ensemble fini de sites.
La région de Voronoï, ou V-région, du site si ∈ S est définie par :
Vi = {x ∈ Ω| ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = i}.
La partition de Voronoï, ou V-partition, de Ω associée à ψ et à S est l’ensemble des régions
40. 26
de Voronoï :
Π(ψ, S) = {V1 , ..., Vn }.
Le diagramme de Voronoï, ou V-diagramme, de Ω associé à ψ et à S est l’union des fron-
tières des régions de Voronoï :
n
∆(ψ, S) = ∂Vi .
i=1
En morphologie mathématique, les V-régions s’appellent aussi les zones d’influence des sites
et le V-diagramme, le squelette par zones d’influence [Lan78].
Notons que la famille finie Π(ψ, S) est bien une partition de Ω, dans le sens de la Définition
1.3.1. Dans le cas des espaces convexes, les régions de Voronoï sont de surcroît des ensembles
connexes, comme le montre le résultat suivant.
Proposition 1.3.1. Soit Π(ψ, S) une V-partition dans un espace pseudo-métrique convexe et
fermé (Ω, ψ). Alors, tout chemin ψ−droit entre un site si et un point x ∈ Vi est complètement
inclus dans Vi .
Démonstration. Puisque (Ω, ψ) est convexe, il existe un chemin ψ−droit reliant entre eux tout
couple de points de Ω. Notons γ un chemin ψ−droit entre un site si et un point x de sa région de
Voronoï. Supposons que γ n’est pas complètement inclus dans Vi . Il existe alors un point y dans
la courbe γ tel que y ∈ Vi . Donc, puisque les régions de Voronoï recouvrent Ω, il existe un autre
/
site sj = si tel que ψsj (y) < ψsi (y). Mais, étant donné que γ est un chemin ψ−droit, l’Inégalité
Triangulaire donne :
ψsj (x) = ψ(x, sj ) ≤ ψ(y, x) + ψ(y, sj ) < ψ(y, x) + ψ(y, si ) = ψ(x, si ) = ψsi (x).
Ainsi ψsj (x) < ψsi (x). On en déduit que x ∈ Vi , ce qui est en contradiction avec les hypothèses.
/
41. 27
(a) (b) (c)
F IG . 1.6 – a : Ensemble de sites S et univers Ω. b et c : Partitions de Voronoï Π(ψ 1 , S) et
Π(ψ 2 , S).
Toute région de Voronoï d’un espace pseudo-métrique convexe est donc un sous-ensemble
connexe de Ω. Notons par ailleurs que le résultat précédent fournit une description géométrique
plus précise des V-régions : celles-ci ont la forme d’une étoile à partir du site. Dans le cas des
partitions de Voronoï induites par la métrique euclidienne, les V-régions sont des polygones
convexes, comme le montre la Figure 1.1.a. La convexité n’est cependant pas forcément préser-
vée pour une distance arbitraire [AK00].
Remarquons que tout élément d’une partition de Voronoï est une union d’éléments de l’es-
pace quotient. De plus, notons que ψs = ψy , ∀y ∈ s(ψ). Un site peut donc être remplacé par
ˆ
un autre point de sa classe d’équivalence sans affecter la V-partition. Par suite, la notion de site
désignera indistinctement le point s ou sa classe d’équivalence s(ψ).
ˆ
Considérons par exemple l’ensemble de sites S = {s1 , s2 , s3 , s4 } dans l’univers rectangulaire
Ω de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 de la Section 1.2.2. Puisque s1 et s4
ont même ordonnée, leurs classes d’équivalence sous ψ 1 coïncident et correspondent à la droite
horizontale tracée en noir. De même, si l’origine est choisie en s2 , alors on a s1 (ψ 2 ) = s4 (ψ 2 )
ˆ ˆ
et cette classe d’équivalence unique correspond au cercle noir. Par conséquent, dans toute V-
partition induite par ψ 1 ou ψ 2 les deux points appartiendront à la même V-région. En outre, pour
ces deux pseudo-métriques, les ensembles de sites {s1 , s2 , s3 , s4 }, {ˆ1 , s2 , s3 } et {ˆ2 , s3 , s4 } sont
s ˆ ˆ s ˆ ˆ
équivalents.
Les Figures 1.6.b et 1.6.c montrent les partitions de Voronoï obtenues avec l’ensemble de
42. 28
sites de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 respectivement. Dans le premier cas,
les régions de Voronoï sont des bandes horizontales, tandis que pour ψ 2 ce sont des couronnes
centrées en l’origine.
Remarquons toutefois que l’espace pseudo-métrique (Ω, ψ 2 ) n’est pas convexe. Ceci peut
s’observer aussi dans la Figure 1.6.a : tout chemin ψ 2 -droit joignant s1 et s4 est par définition
contenu dans s1 (ψ 2 ), le cercle noir, or celui-ci n’est pas entièrement contenu dans le rectangle
ˆ
Ω. Par conséquent, les V-régions sous ψ 2 dans cet univers peuvent ne pas être connexes.
1.3.3 Cadre variationnel
Nous complétons ce chapitre par une formulation variationnelle de l’approche métrique. Ce
paragraphe présente les V-partitions en tant que minimisatrices d’une énergie et le paragraphe
suivant contient un résultat analogue pour les V-partitions centrées. On se place ici dans Rn et on
suppose que (Ω, ψ) est un espace métrique.
Lemme 1.3.2. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition de
Ω ⊂ Rn telle que si ∈ Ωi , ∀i ∈ [1, ..., n].
Alors, Π est une partition de Voronoï si et seulement si
ψsi (x) = ψS (x), ∀ x ∈ Ω. (1.3.4)
Démonstration. Supposons que Π = {V1 , ..., Vn } est la partition de Voronoï associée à S. Soient
x ∈ Ω et Vi ∈ Π tels que x ∈ Vi . Alors, par définition de V-région, on a
ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = i
Donc, d’après la définition de distance à un ensemble (1.2.5),
ψsi (x) = ψS (x).
43. 29
Réciproquement, si Π n’est pas une partition de Voronoï, alors au moins une de ses régions n’est
pas une V-région : ∃i : Ωi = Vi . Considérons un point x ∈ Ωi Vi . Il existe alors une V-région
Vj = Vi telle que x ∈ Vj . On a donc
ψS (x) = ψsj (x) < ψsi (x).
Théorème 1.3.3. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition
de Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n].
Alors, Π minimise l’énergie :
n
E(Ω1 , ..., Ωn ) = ψsi (x)dx (1.3.5)
i=1 Ωi
si et seulement si Π est une partition de Voronoï.
Démonstration. Par définition de ψS , on a l’inégalité :
n n
E(Ω1 , ..., Ωn ) = ψsi (x)dx ≥ ψS (x)dx = ψS (x)dx = E(V1 , ..., Vn ). (1.3.6)
i=1 Ωi i=1 Ωi Ω
Pour une partition de Voronoï, l’énergie est donc minimale.
Réciproquement, si (1.3.6) est une égalité, alors pour tout i, on a Ωi
{ψsi (x)−ψS (x)}dx = 0.
Mais, par définition, ψsi (x) ≥ ψS (x) et on a : U
{ψsi (x) − ψS (x)}dx = 0, pour tout U ⊆ Ωi .
Ainsi, puisque ψsi et ψS sont des fonctions continues, l’égalité est vraie sur Int(Ωi ) = Ωi .
On a donc prouvé que : ∀x ∈ Ωi , ψsi (x) = ψS (x), ce qui est équivalent à dire que {Ω1 , ...Ωn }
est une partition de Voronoï d’après le Lemme 1.3.2.
Un avantage de cette formulation variationnelle est qu’elle permet d’introduire de l’informa-
tion préalable dans la V-partition. On peut par exemple contrôler la régularité des V-régions en
ajoutant un terme de longueur de bord à l’énergie (1.3.6). Dans le contexte de la segmentation,
cette idée a été employée pour régulariser les contours obtenus par ligne de partage des eaux
[NWvdB03]. Cependant, puisque nous ne voulons pas inclure de connaissance à priori sur le
contenu de l’image dans notre système, cette approche ne sera pas développée dans la suite.
44. 30
(a) (b) (c)
F IG . 1.7 – a : V-Partition non centrée. b et c : Partitions de Voronoï centrées.
1.3.4 Partitions de Voronoï centrées
Une partition de Voronoï centrée est une V-partition où chaque site est le barycentre de
sa V-région. Notons que cette condition n’est généralement pas satisfaite dans une V-partition
arbitraire, comme le montre la Figure 1.7.a.
Le barycentre ou centre de masse z ∗ d’un ensemble V est défini au moyen d’une fonction de
densité ρ :
xρ(x)dx
z∗ = V
V
ρ(x)dx
Alternativement, on peut définir le barycentre de V par la minimisation d’une énergie :
z ∗ = inf ρ(x)ψ(x, z)dx
z∈V V
Enfin, on peut prouver le résultat suivant [DFG] :
Théorème 1.3.4. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition
de Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n].
Si Π minimise l’énergie :
n
2
F(Ω1 , ..., Ωn , s1 , ..., sn ) = ρ(x)ψsi (x)dx (1.3.7)
i=1 Ωi
alors Π est une partition de Voronoï centrée.
45. 31
TAB . 1.1 – Algorithme de Lloyd
• Initialisation
◦ Partition de Voronoï initiale Π(ψ, S), où S = {s1 , ..., sn }.
• Boucle : Itérer jusqu’à convergence :
◦ Calculer les barycentres des V-régions : S ∗ = {s∗ , ..., s∗ }.
1 n
◦ Construire la Partition de Voronoï Π(ψ, S ∗ )
Notons que la fonctionnelle (1.3.7) dépend aussi bien des régions que des sites, contrairement
à celle définie par l’équation (1.3.5). Ce problème de minimisation admet une solution, mais elle
n’est généralement pas unique, comme le montrent les Figures 1.7.b et 1.7.c.
Il existe un certain nombre d’approches probabilistes et déterministes pour construire des
partitions de Voronoï centrées. Une des plus célèbres est l’algorithme de Lloyd [Llo82], présenté
dans le Tableau 1.1. Cette méthode, un cas particulier des nuées dynamiques de Diday [DLPT82],
repose sur l’alternance du calcul des barycentres et de la construction des V-partitions.
(a) (b)
F IG . 1.8 – Construction d’une Partition de Voronoï centrée par l’algorithme de Lloyd. a : V-
partition initiale. b : Résultat après 50 itérations.
La Figure 1.8 présente un exemple d’application de cet algorithme. Un ensemble initial de
40 sites a été choisi aléatoirement. La fonction de densité est dans ce cas constante, de sorte que
z ∗ soit le barycentre usuel, et la distance considérée est la distance euclidienne. On peut observer
que les sites tendent à se distribuer uniformément sur l’ensemble.
47. Chapitre 2
Images et segmentations
Nous nous intéressons dans ce chapitre au passage du monde continu au monde discret ainsi
qu’aux structures mathématiques et algorithmiques qui nous permettront de représenter et mani-
puler les images et leurs segmentations.
2.1 Images
Afin d’appliquer les notions introduites dans le chapitre précédent à la segmentation, l’en-
semble Ω désignera dorénavant le domaine d’une image.
Plus précisément, une image est une fonction u : Ω → (X, d), où le domaine de définition
Ω est, soit un sous ensemble de Rn dans le cadre continu, soit son intersection par une grille
régulière dans le cadre discret.
Le domaine d’une image 2D est usuellement un rectangle fermé du plan dans le cas continu
et une partie bornée de Z2 dans le cas discret.
Pour les images monochromatiques, l’espace pseudo-métrique d’arrivée (X, d) est (R, ),
l’ensemble des réels muni de la distance usuelle. Le cas des images couleur requiert en revanche
une étude plus détaillée de l’espace des couleurs.
La représentation de la couleur est le sujet de la colorimétrie ; le lecteur intéressé dans ce do-
maine trouvera en [WS82] un ouvrage de référence. Le fondement de cette discipline sont les lois
33
48. 34
expérimentales d’égalisation des couleurs, résumées dans le principe de généralisation trichro-
matique. Selon ce principe, la plupart des stimuli couleur perceptibles par l’œil humain peuvent
s’obtenir par le mélange pondéré de trois stimuli primaires. Les couleurs sont par conséquent
usuellement représentées par des vecteurs dans un espace de dimension trois, d’où X = R3 .
L’espace le plus souvent utilisé est le système RVB, où la couleur d’un pixel est représentée
par le mélange additif des trois canaux chromatiques primaires Rouge, Vert et Bleu. D’une grande
utilité pratique pour le codage, cet espace présente néanmoins deux désavantages majeurs pour
notre application : il ne possède pas de métrique naturelle et il est mal adapté à la perception
humaine.
Outre l’existence d’une distance entre les couleurs, il serait souhaitable que la représentation
sépare l’information de luminosité de celle de chrominance, pour pouvoir inclure les images
monochromatiques comme un cas particulier du même modèle.
Les considérations précédentes nous ont conduit à adopter les standards L∗ ab et L∗ uv de la
Commission Internationale de l’Éclairage (CIE). Ces représentations sont des approximations
de l’espace des couleurs perceptuellement uniforme, où la couleur d’un pixel est décomposée
en une composante de luminosité L∗ et deux composantes chromatiques c1 et c2 ((a, b) et (u, v)
respectivement).
La métrique Riemannienne de l’espace des couleurs est généralement approchée dans les
systèmes L∗ ab et L∗ uv par la distance euclidienne. Cependant, sous certaines conditions d’obser-
vation, le poids relatif de la luminosité et de la chrominance perçues de deux stimuli de couleurs
peut varier [WS82]. Pour prendre en compte ces variations dans notre système, nous utilisons la
formule de distance suivante entre deux couleurs k = (l, c1 , c2 ) et k = (l , c1 , c2 ) de ces espaces :
δ ∗ (k, k ) = (l − l )2 + ξ(c1 − c1 )2 + ξ(c2 − c2 )2 . (2.1.1)
Dans la suite, l’espace pseudo-métrique d’arrivée des images sera (X, d) = (L∗ c1 c2 , δ ∗ ).
Ainsi, lorsque ξ = 0, la seule information prise en compte est la luminosité et on retrouve le cas
49. 35
des images monochromatiques. Par ailleurs, le poids ξ = 1 correspond aux espaces (L∗ ab, ) et
(L∗ uv, ) usuels.
2.2 Composantes connexes
L’objectif de notre travail est la segmentation de bas niveau, c’est-à-dire sans connaissance
préalable du contenu de l’image. Nous supposons donc que l’information des contours des ob-
jets est présente dans l’image originale et considérons comme contours possibles uniquement
ses discontinuités. Ce choix méthodologique, souvent adopté en segmentation morphologique
[Mey01b, Ser04], conduit à des contours parfois moins réguliers que ceux des approches diffé-
rentielles. En revanche, il n’oblige pas à interpréter l’image comme une fonction régulière.
Nous voulons donc construire des partitions métriques du domaine qui ne fragmentent pas
les zones constantes de l’image. Cette propriété est satisfaite lorsque la classe d’équivalence d’un
point x ∈ Ω coïncide avec la composante connexe de u qui contient x, notée Cx (u) et définie
par :
Cx (u) = {y ∈ Ω | ∃γ ∈ Γxy : u(x) = u(y) = u(γ(t)), ∀t ∈ [a, b]} . (2.2.1)
Alternativement, on peut définir Cx (u) comme le plus grand ensemble connexe qui contient x et
où u est constante.
On notera C(u) l’ensemble des composantes connexes de u :
C(u) = {Cx (u) | x ∈ Ω}.
Nous définirons dans la suite des espaces pseudo-métriques tels que x(ψ) = Cx (u). L’es-
pace quotient (Ω(ψ), ψ) est dans ce cas homéomorphe à l’espace des composantes de l’image
(C(u), δ ∗ ) et les régions des partitions métriques considérées sont réunion de composantes connexes
de u.
Remarquons enfin que la non convexité du domaine n’est pas une limitation pour les distances
50. 36
étudiées dans ce travail. En effet, ces distances sont déterminées par les données de l’image, dont
la définition peut être étendue hors du domaine de sorte qu’il contienne les chemins ψ-droits.
2.3 Segmentations
Nous avons jusqu’à présent considéré les segmentations comme des partitions de l’espace ;
cette section présente le formalisme de Morel et Solimini [MS95] pour leur définition en termes
de contours.
2.3.1 Définitions
Soit γ : [a, b] → Ω un chemin. Considérons σ = {t0 , ..., tn } une subdivision finie de [a, b]
telle que a = t0 < t1 < ... < tn = b et notons Φ l’ensemble de ces subdivisions. La longueur
euclidienne de la courbe γ est définie par :
n
L(γ) = sup (γ(ti ), γ(ti−1 )). (2.3.1)
σ∈Φ
i=1
Une courbe rectifiable est une courbe de longueur euclidienne finie. Dans ce cas, on peut
reparamétrer la courbe par son abscisse curviligne, que nous notons l.
Une segmentation K est l’union d’un ensemble fini de courbes rectifiables.
La longueur d’une segmentation, notée L(K), est définie comme l’infimum des longueurs
de tous les ensembles dénombrables de courbes rectifiables dont l’union est K. Si K est l’union
d’un ensemble de courbes rectifiables se rencontrant uniquement en un ensemble dénombrable
de points, alors L(K) est la somme des longueurs des courbes.
Les régions d’une segmentation sont les composantes connexes de ΩK. Elles seront notées
(Ωi )i . La mesure de Lebesgue bidimentionnelle de Ωi est notée |Ωi |.
La frontière commune de deux régions Ωi et Ωj est contenue dans K et notée ∂(Ωi , Ωj ) ou,
en l’absence d’ambiguïté, ∂ij . La frontière de Ωi est notée ∂Ωi .
51. 37
Une courbe de Jordan est une courbe continue telle que ∀s, s ∈]0, 1[, s = s , on a γ(s) =
γ(s ). Si γ(0) = γ(1), la courbe de Jordan est fermée. Si γ(0) et γ(1) diffèrent, ils sont appelés
les extrémités de la courbe. Les autres points sont appelés points intérieurs de la courbe.
Une segmentation est normale1 si elle est l’union d’un ensemble fini de courbes de Jordan
rectifiables, qui se rencontrent entre elles et rencontrent ∂Ω uniquement en leurs extrémités. De
plus, chaque courbe de Jordan sépare deux régions différentes et chaque extrémité est commune
à au moins trois courbes de Jordan.
Les contours d’une segmentation normale sont les courbes de Jordan qui la composent. Les
points de rencontre de la segmentation sont leurs extrémités. Les contours peuvent être définis
de façon équivalente comme les composantes connexes des frontières communes ∂(Ωi , Ωj ).
Les segmentations normales ont les propriétés suivantes :
Une segmentation normale avec α régions peut se décomposer en l’union de α − 1 courbes
de Jordan se rencontrant uniquement sur un ensemble fini de points.
Soit une segmentation normale avec α régions, β contours et η points de rencontre. Alors :
η ≤ 2(α − 1) et β ≤ 3(α − 1) − 2.
2.3.2 Représentation des contours
Une partition a été définie (Définition 1.3.1) comme un recouvrement du domaine en régions
fermées qui se superposent uniquement sur leurs frontières. Dans le cas de l’espace euclidien,
les V-partitions sont effectivement des segmentations normales et l’ensemble des contours K
coïncide avec le V-diagramme. Cependant, en général, l’ensemble des frontières d’une partition
pseudo-métrique peut avoir une aire non nulle. En outre, sur un domaine discret, cet ensemble
peut être fragmenté comme conséquence du processus de discrétisation. Ces considérations nous
ont conduit aux choix méthodologiques que nous décrivons dans ce paragraphe.
1
appelée 1-normale dans [MS95]
52. 38
(a) (b)
F IG . 2.1 – Représentation des contours. a : pixels. b : edgels.
Un premier problème pratique qui se pose est la représentation de la frontière entre deux
régions. Pour les images numériques définies sur une grille carrée, on représente usuellement
les frontières par un ensemble de pixels ou par les éléments d’une grille duale d’espaces inter-
pixellaires appelés edgels2 , comme le montre la Figure 2.1.
Si on considère le processus d’acquisition de l’image comme l’échantillonnage d’un phéno-
mène continu, le modèle pixellaire semble le plus approprié géométriquement. En effet, puisque
la mesure obtenue dans les pixels frontière est un mélange des mesures des pixels voisins, il est
possible de déduire une estimation sous-pixellaire de la frontière réelle si on maîtrise les condi-
tions d’acquisition de l’image. Ce ne sera généralement pas notre cas. Le modèle pixellaire sur
une grille carrée présente par ailleurs des problèmes en topologie discrète, comme la non validité
du théorème de Jordan ou la nécessité de choisir deux connexités différentes pour une région et
sa frontière (voir par exemple [SM94]).
Nous avons par conséquent adopté le modèle inter-pixellaire qui, du point de vue de la seg-
mentation, est plus naturel et facile à gérer. Nous allons donc considérer en pratique des partitions
qui sont un recouvrement du domaine discret en régions disjointes.
2
edgel : acronyme formé des mots anglais edg-e et el-ement.
53. 39
Définition 2.3.1. Une partition du domaine de définition Ω d’une image numérique est une
famille finie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes :
1. Ωi Ωj = ∅, ∀ i = j.
n
2. Ωi = Ω.
i=1
Nous supposerons dans la suite que les points centraux des edgels d’une partition discrète
sont un échantillonnage des contours d’une segmentation normale.
Pour construire une partition discrète, nous assignons les pixels des frontières pseudo-métriques
à l’une des deux régions qu’ils séparent. Nous verrons dans la quatrième partie que, pour les dis-
tances étudiées, ce choix est secondaire pour la qualité globale de la segmentation.
2.3.3 Images mosaïques
A partir d’une segmentation, on peut construire une approximation régulière par morceaux de
l’image originale en choisissant un modèle, par exemple un spline d’ordre fixé, pour représenter
chaque région. Notre approche se fondant sur l’information de l’image originale, nous utiliserons
l’approximation surtout pour présenter les résultats. Le modèle des régions sera donc constant,
par exemple, la valeur de l’image sur le site, la médiane ou la moyenne sur la région. On obtient
ainsi une reconstruction de l’image constante par morceaux qui sera appelée dans la suite une
image mosaïque ou simplement mosaïque.
2.4 Graphes et arbres
2.4.1 Définitions
Graphes et arbres servent à modéliser les images à différents niveaux d’analyse. Nous rappe-
lons dans ce paragraphe les définitions de ces structures et précisons les notations. Pour plus de
détails, le lecteur peut consulter par exemple [CP95].
54. 40
Un graphe orienté est un couple G = (X, A) où X est un ensemble fini et A est un sous-
ensemble de X 2 définissant une relation binaire sur X.
Les éléments de X sont les sommets du graphe et ceux de A sont les arcs.
On considère l’application V : X → P(X) définie par V (x) = {y ∈ X | (x, y) ∈ A}.
L’ensemble V (x) est appelé un voisinage du sommet x ∈ X. Si y ∈ V (x), on dit que x et y sont
adjacents.
Un élément a ∈ A de la forme a = (x, x) pour x ∈ X est appelé une boucle.
Si les propriétés de G ne dépendent pas du sens des arcs, on dit que G est un graphe non
orienté. On considère dans ce cas les couples non ordonnés a = (x, y), qu’on appelle arêtes.
Un graphe est simple s’il est sans boucles et s’il n’y a jamais plus d’une arête entre deux
sommets donnés.
Un graphe est planaire s’il est possible de le représenter dans un plan sans que deux arcs ne
se croisent.
Un chemin, ou chaîne, entre deux sommets x0 , xn ∈ X est une séquence π = {x0 , x1 , ..., xn }
telle que xi+1 ∈ V (xi ) pour tout i = 0, ..., n − 1. L’ensemble des chemins entre x et y est noté,
comme dans le cas continu, Γxy .
Un cycle est une chemin dont les extrémités coïncident et qui n’utilise pas deux fois le même
arc.
Un graphe est connexe si, pour tout couple de sommets, il existe un chemin les joignant.
Un arbre est un graphe non orienté simple, connexe et sans cycle.
La structure de graphe peut être enrichie en considérant une application à valeurs réelles w
définie sur X ou sur A. Dans le premier cas, on parle d’attribut d’un sommet et, dans le second,
de poids d’une arête. G est appelé dans les deux cas un graphe valué.
55. 41
Image Zones plates Graphe de composantes
F IG . 2.2 – Exemple de graphe de composantes d’une image.
2.4.2 Graphes d’adjacence
Graphe de pixels
Une image peut toujours être traitée comme un graphe de pixels, où les sommets sont les
pixels et les arêtes relient des pixels voisins pour une connexité discrète (usuellement 4, 6 ou 8
connexité). Dans ce cas, on peut assigner comme attribut à chaque sommet la valeur de l’image
dans le pixel. Le poids des arêtes sert à exprimer des relations entre pixels voisins. Ce graphe est
utilisé dans le Chapitre 3 pour implanter les distances pondérées.
Graphe de composantes
Dans le cadre de notre approche, les éléments de base ne sont pas les pixels mais les com-
posantes connexes de l’image. Une première façon d’interpréter les composantes dans le cadre
discret est de considérer des chemins sur le graphe de pixels dans leur définition (2.2.1). La
composante d’un point est ainsi définie comme sa zone plate, l’ensemble des points qu’on peut
atteindre en suivant un chemin discret où l’image est constante.
Ainsi, nous utilisons souvent un graphe de composantes à la place du graphe de pixels. Dans
ce graphe, les sommets représentent les zones plates de l’image et leur attribut est la valeur du
canal de luminosité L∗ . Les arêtes sont pondérées par la distance couleur δ ∗ entre deux compo-
santes voisines. Sur cette structure repose une des constructions de la distance étudiée dans le
56. 42
Chapitre 4.
Graphe de régions
Une segmentation est une partition du domaine de l’image et, à toute partition discrète, on
peut associer un graphe appelé graphe d’adjacence de régions (RAG3 ). Les sommets du graphe
sont les parties connexes des régions qui composent la partition. Deux sommets sont reliés par
une arête si les deux régions sont adjacentes, c’est-à-dire s’il existe au moins deux pixels voisins
appartenant chacun à l’une des deux régions. De même que le graphe de composantes, le RAG
dépend du type de connexité entre les pixels. Il est planaire pour la 4-connexité mais pas pour la
8-connexité.
Dans le cas du RAG, nous allons considérer une liste d’attributs pour décrire les caractéris-
tiques internes de chaque région. Le poids des arêtes sera pour sa part une mesure de dissem-
blance entre deux régions adjacentes.
Un avantage du RAG est d’élever le niveau de représentation de l’image en passant des pixels
(ou des composantes connexes) aux régions. Ces graphes se trouvent à la base des représentations
hiérarchiques des images qui seront construites dans la troisième partie du mémoire. Le graphe
de pixels et le graphe de composantes en sont des cas particuliers.
2.4.3 Arbres d’inclusion
La représentation de l’image par un graphe d’adjacence privilégie la relation de connexité.
La relation d’inclusion est pour sa part codifiée naturellement par une structure d’arbre.
Arbre de formes
Le graphe de composantes est construit en représentant, dans le cadre discret, les compo-
santes connexes par des zones plates. Pour les images monochromatiques, une alternative est de
3
RAG : de l’anglais Region Adjacency Graph.
57. 43
[u ≥ 0] [u ≥ 1] [u ≥ 2] Arbre de maxima
[u ≤ 2] [u ≤ 1] [u ≤ 0] Arbre de minima
F IG . 2.3 – Exemple d’arbres de minima et de maxima avec l’image de la Figure 2.2.
considérer les ensembles de niveau (voir la Définition 1.3.2).
Les composantes connexes des ensembles de niveau sont ordonnées par l’inclusion (voir
la Figure 2.3). Les ensembles de niveau supérieurs définissent donc un arbre, appelé arbre de
maxima (max-tree), dont les feuilles sont les maxima régionaux de l’image et la racine est le plus
bas niveau [SOG98]. La même construction, réalisée avec les ensembles de niveau inférieurs,
définit un arbre de minima (min-tree). Une implantation efficiente de ces structures est proposée
dans [CNB05].
Les arbres de minima et de maxima sont des structures complémentaires mais redondantes.
Une façon de combiner leurs informations en une structure unique a été proposée par Monasse
[Mon00]. Dans ce travail, les éléments de base sont les "formes", les composantes connexes des
ensembles de niveau (inférieurs et supérieurs) dont on remplit les "trous". Un arbre de formes,
dont les feuilles sont les extrema de l’image sans trous, est alors construit. Cet arbre est une re-
présentation de l’image sans redondance et invariante par changements de contraste. Un exemple
d’arbre de formes est présenté dans la Figure 2.4, où on peut observer que l’information des
formes est codée une seule fois.
Ainsi, nous considérons une deuxième définition discrète de composante. Soit u une image
scalaire et Px la plus petite forme de l’arbre de formes de u qui contient le point x. La composante
58. 44
Image u Arbre de formes
F IG . 2.4 – Exemple d’arbre de formes d’une image.
connexe de u contenant x est donnée par :
Cx (u) = {y ∈ Ω |Py = Px } (2.4.1)
L’arbre de formes est utilisé comme alternative au graphe de composantes dans le Chapitre 4.
Arbre de régions
Un graphe de régions sert à représenter une partition du domaine d’une image. Dans le Cha-
pitre 6, nous nous intéressons à des méthodes de segmentation où les régions d’une partition ini-
tiale sont fusionnées de façon itérative. Un tel algorithme peut s’implanter au moyen d’un RAG,
où la fusion de deux régions connexes se réalise en réunissant les deux sommets correspondants
et en supprimant l’arête qui les joint. Le processus de fusion en entier peut se représenter par un
arbre de régions ordonné selon l’inclusion, comme dans l’exemple de la Figure 2.5.
2.4.4 Distances sur un graphe
Rappelons enfin quatre distances classiques qu’on peut construire à partir des chemins d’un
graphe.
Somme des poids :
d1 (x, y) = min w(a).
π∈Γxy
a∈π
59. 45
F IG . 2.5 – Exemple d’arbre de régions. La fusion de deux régions connexes correspond à la
création d’un sommet de l’arbre. Les arêtes codifient la relation d’inclusion.
Poids maximum :
d2 (x, y) = min max w(a).
π∈Γxy a∈π
Somme des attributs :
d3 (x, y) = min w(xi ).
π∈Γxy
xi ∈π
Attribut maximum :
d4 (x, y) = min max w(xi ).
π∈Γxy xi ∈π
Ces distances peuvent s’interpréter en assimilant le graphe à un réseau routier, où les sommets
représentent des villes, l’attribut le péage pour passer par une ville, les arêtes les routes reliant
les villes et leur poids la distance les séparant. Ainsi, d1 mesure la longueur du plus court chemin
entre deux villes et d3 la somme à payer pour emprunter le chemin le moins cher. De même,
d4 mesure le plus petit péage maximum sur les chemins entre deux villes, et d2 la plus petite
distance maximum entre deux villes consécutives des chemins.
Les distances précédentes peuvent se calculer à l’aide d’un algorithme de chemins minimaux
classique comme celui de Dijkstra [Dij59, KR99].
Dans la troisième partie du mémoire, nous construirons un autre type de distances, les ultra-
métriques, sur un graphe de régions.
63. Chapitre 3
Distances pondérées
L’application du cadre métrique requiert la définition de distances spécifiques pour traiter
un problème particulier. Dans le cas de la segmentation, la distance doit se construire à partir
des données de l’image, afin d’être représentative de son information géométrique. Par exemple,
segmenter une image au moyen d’une V-partition euclidienne est inapproprié, car le choix d’un
ensemble de sites et d’un domaine détermine les V-régions, indépendamment de l’information
de l’image.
La question qui se pose est donc comment construire de telles distances. La réponse proposée
dans cette partie du mémoire repose sur l’étude des chemins entre points du domaine de l’image.
Dans ce but, une quantité, interprétée comme une notion d’énergie ou de longueur généralisée,
est mesurée le long des chemins. La distance est alors donnée par le minimum de l’énergie sur
tous les chemins entre deux points.
Dans ce chapitre, nous commençons par préciser la définition des métriques de chemin dans
la Section 3.1, pour ensuite nous intéresser à l’exemple le plus classique de ce type de pseudo-
métriques, les distances pondérées.
49
64. 50
3.1 Définition des métriques de chemin
Définition 3.1.1. Une structure de longueur pour l’ensemble Ω [Gro99] est une application
e : ΓΩ → R+ qui satisfait les conditions suivantes :
1. e(γ) = 0 si et seulement si γ est constant.
2. Si γ est la concaténation de γ1 et γ2 , alors e(γ) = e(γ1 ) + e(γ2 ).
3. Si γ : [a, b] → Ω est un chemin et f : [c, d] → [a, b] est un homéomorphisme, alors γ ◦ f
est un chemin et e(γ ◦ f ) = e(γ).
Les deux premières conditions sont la traduction en termes de chemins de la définition de
pseudo-métrique, comme nous le verrons par la suite. La troisième, pour sa part, indique que
e est invariante par changements de paramètre et donc que la longueur est une notion qui agit
directement sur la courbe image du chemin. Notons par ailleurs que la longueur euclidienne
définie en (2.3.1) satisfait la définition précédente.
À partir d’une structure de longueur, on peut définir une distance en considérant sa valeur
minimale sur tous les chemins qui relient deux points de l’ensemble Ω :
Définition 3.1.2. La métrique de chemin ψ induite par la structure de longueur e est définie
par :
ψ(x, y) = inf e(γ), ∀ x, y ∈ Ω.
γ∈Γxy
Vérifions qu’une métrique de chemin est effectivement une pseudo-métrique. Pour la Réflexi-
vité de la Définition 1.2.1, considérons un point x ∈ Ω et le chemin constant γ0 ∈ Γxx défini
par : γ0 (t) = x, ∀t ∈ [a, b]. Puisque γ0 est constant, d’après la Définition 3.1.1, e(γ0 ) = 0 et donc
ψ(x, x) ≤ 0. Le résultat découle de l’hypothèse ψ(x, x) ≥ 0.
Pour prouver l’Inégalité Triangulaire, considérons trois points x, y, z ∈ Ω et notons par Γxˆy
z
l’ensemble des chemins entre x et y obtenus par la concaténation d’un chemin entre x et z et
65. 51
(a) (b)
F IG . 3.1 – Principe de Fermat
d’un chemin entre z et y. On a alors Γxˆy ⊂ Γxy , car l’ensemble des chemins qui passent par z
z
est un sous ensemble de tous les chemins entre x et y. Donc, d’après l’Axiome 2 de la Définition
3.1.1, on obtient :
ψ(x, y) = inf e(γ) ≤ inf e(γ) = inf e(γ1 ) + inf e(γ2 ) = ψ(z, x) + ψ(z, y),
γ∈Γxy γ∈Γxˆy
z γ1 ∈Γzx γ2 ∈Γzy
où γ est la concaténation de γ1 et γ2 .
3.2 Optique géométrique
La notion de chemin minimal trouve son fondement physique dans le domaine de l’optique
géométrique. Nous rappelons dans cette section certains résultats classiques de cette discipline
pour situer les distances pondérées dans notre cadre de travail. Le lecteur trouvera une exposition
détaillée du sujet dans des ouvrages de référence tels [BW80, Sea49, ST91].
Un milieu optique où la vitesse de la lumière est constante est appelé milieu homogène. Un
tel milieu est caractérisé par le nombre n ≥ 1, nommé indice de réfraction et défini par le rapport
entre la vitesse de la lumière dans le vide c0 et sa vitesse c dans le milieu.
Les différentes définitions seront illustrées à l’aide de la Figure 3.1.a, où le point s représente
une source ponctuelle de lumière monochromatique. La ligne horizontale médiane correspond
66. 52
à l’interface entre deux milieux optiques homogènes différents, représentés en blanc et en gris,
avec indices de réfraction n1 et n2 respectivement.
La loi de réflexion de la lumière est connue depuis l’antiquité : si un rayon lumineux part
de s et atteint l’interface, alors une partie de la lumière est réfléchie et l’angle de réflexion est
égal à l’angle d’incidence. Les deux angles sont notés par θ dans le dessin. Héron d’Alexandrie
remarqua que la réflexion obéit à un principe de minimalité puisque, si les deux angles étaient
différents, le temps de parcours de la lumière et la distance parcourue seraient plus grands.
La loi qui régit la réfraction, la partie de la lumière qui traverse l’interface, mit en revanche
beaucoup plus de temps à être élucidée. Si l’indice de réfraction du milieu gris est plus grand que
celui du milieu blanc alors on observe que, comme dans le schéma, le rayon est "plié" vers la
normale à l’interface. L’angle de réfraction α varie cependant de façon non linéaire avec l’angle
d’incidence. Ce ne fut qu’en 1621 que Snell découvrit que le rapport entre les sinus des angles α
et β dépend uniquement des indices de réfraction des deux milieux optiques.
En 1657, Pierre de Fermat, reprenant l’observation d’Héron, eut l’idée d’expliquer la réfrac-
tion et la réflexion comme deux expressions différentes d’un même principe général qu’il énonça
sous la forme suivante : "La Nature agit toujours par le moindre cours". Ce célèbre principe sou-
leva une controverse philosophique qui se poursuit de nos jours, car il accorde une intentionnalité
à la nature qui semble étrangère à l’idée moderne de science.
Le principe de Fermat est pourtant vérifié en optique, où il implique que la trajectoire suivie
par un rayon de lumière monochromatique pour aller d’un point de l’espace à un autre est celle
qui prend le moins de temps. Ainsi, dans un milieu homogène, le temps de parcours est propor-
tionnel à la distance et le rayon lumineux suit la ligne droite entre les deux points. C’est le cas
par exemple pour les points s et y de la Figure 3.1.a, où le rayon est représenté en bleu.
Pour illustrer le comportement de la lumière lorsque le milieu n’est pas homogène, considé-
rons un rayon lumineux qui va du point s au point x et supposons que l’indice de réfraction du
milieu gris est le plus grand. Alors, le principe de Fermat implique que le rayon passera le plus