Segmentation floue d images de documents anciens par approche textur…
1. Segmentation Floue d’Images de Documents Anciens par Approche
Texture Utilisant le Filtre de Gabor
Kamel MOUATS Nicholas JOURNET Rémy MULLOT
Laboratoire L3i, 17042 La Rochelle Cedex 1 – France
k_mouats@yahoo.fr nicholas.jounet@univ-lr.fr remy.mullot@univ-lr.fr
Résumé
Cet article présente une méthode de segmentation les images de documents mais nécessitant une bonne
floue des images de documents anciens. Elle permet la définition et paramétrisation.
séparation des zones de texte et de dessins d’images de L'approche texturale de segmentation de textes et
documents imprimés datant de la Renaissance. Notre graphiques, dans des documents numérisés, est basée sur
approche consiste à définir des bancs de filtres de Gabor le fait que le texte dans le document peut être aperçu
capables de localiser les zones de textes et de dessin comme une texture, cependant les graphiques sont une
séparément à l’aide d’un processus de classification flou autre texture différente. En se basant sur cette idée, on
des résultats de filtrage. Une simple fusion des résultats segmente les documents à l'aide d'un schéma de
des bancs de filtres fournit une version segmentée de segmentation texture utilisant des bancs de filtres comme
l’image de document ancien en question. Extracteurs de Caractéristiques. La conception de banc
Nous avons validé notre système et des résultats seront de filtres utilise les filtres de Gabor, éléments de base
donnés et discutés. pour l'extraction de caractéristiques, qui simulent la
vision humaine et fournit une résolution optimale en
temps et fréquence. Le principe consiste à décomposer
l'image à travers plusieurs filtres d'images avec des
1. Introduction fréquences et orientations sélectives.
Dans le présent article, nous allons adopter l’outil
Les documents anciens sont des documents d’archives Gabor pour définir un système de segmentation d’images
rédigés à une autre époque et obéissant donc à des règles de documents anciens, qui soit alors une première
typographiques et de composition différentes de celles tentative et un premier pas dans la littérature des
appliquées sur les documents modernes. méthodes de segmentation d’images de documents
En effet, l’image d’un document ancien numérisé est anciens.
souvent très tonale, à niveaux de gris ou en couleur. Elle
peut comprendre des annotations dans les marges, des
illustrations, des lettrines, voire même des écritures 2. Théorie gaborienne
manuscrites. Ces documents se caractérisent par des
présentations et des écritures très variées, variations dues 2.1. Théorie
à la multiplicité des styles et des techniques d’impression
qui ont évolué au cours du temps. L’usure du temps a, de Un filtre de Gabor est une fonction sinusoïdale à
plus, produit des altérations au document original et laquelle on a rajouté une enveloppe gaussienne
l’image numérisée qui en découle contient alors des (figure1.1). La fonction sinusoïdale est caractérisée par
imperfections (taches, écritures fragmentées) qui sa fréquence et son orientation. Ainsi appliqué sur une
n’existent pas dans les documents plus modernes. image, un filtre de Gabor peut être vu comme un
La segmentation d’images de documents anciens en détecteur de segments d'orientation particulière, puisqu'il
vue de les indexer est un sujet de recherche. Les réagira aux arêtes perpendiculaires à la direction de
documents anciens possèdent de nombreuses propagation du sinus [6].
particularités qui ne permettent pas d’appliquer les Les techniques de filtrage multi-canaux permettent
techniques classiques d’analyse de documents l'extraction des caractéristiques de texture localement, en
composites et d’OCR sur ces ouvrages. Ils sont dégradés, fréquence et orientation, pour tout pixel dans une région
reposent sur les anciennes techniques d’imprimerie et d'intérêt. Cette méthode est particulièrement intéressante
respectent donc des règles particulières de typographie et vue qu'elle est inspirée du système de vision humain qui
de mise en forme. décompose l'image projetée sur la rétine en un nombre
La segmentation de texture est un sujet de base et important d'images filtrées, chacune contenant des
important en traitement d'image. Elle consiste à variations d'intensité fines de fréquences et d'orientations
segmenter une image texturée en plusieurs régions ayant [3] .
les mêmes caractéristiques de texture; elle est bien et L'idée de l'approche gaborienne est alors de concevoir
belle appliquée à l'analyse des images aériennes, images un filtrage particulièrement sélectif en fréquence et
biomédicales et des images sismiques, et récemment sur
1
2. orientation dans le but de caractériser au détail près les Dans le domaine fréquentiel, le signal est représenté
textures. par deux gaussiennes selon l'axe X, centrées en +u0 et -u0
L’idée de la segmentation de documents anciens à comme montré sur la figure1.2 [6].
l’aide d’outils texture est basée sur le constat que le texte
et les illustrations peuvent êtres vus comme étant des
zones fortement texturées.
Figure 2. Banc de filtres de Gabor dans le
domaine fréquentiel
2.2. Panorama
Figure 1.1. La fonction de Gabor dans le domaine spatial
Le filtre de Gabor est l’outil utilisé par excellence
dans la segmentation et l’analyse de texture. Cependant,
peu de travaux l’ont adopté pour la segmentation
Texte/Dessin et particulièrement appliquée sur des
documents contemporains.
Jain et Bhattacharjee [3] proposent une méthode
directe de segmentation Texte/Dessin en utilisant un
banc de filtres de Gabor; la méthode ainsi définie permet
de marquer les zones de texte des images de journaux.
Trygve et al. [2] reposent sur les travaux de Jain et
Bhattacharjee pour mettre au point un système de
segmentation supervisé capable de séparer le texte, le
dessin et le fond des images de documents fortement
Figure 1.2. La fonction de Gabor dans le domaine fréquentiel
bruités.
Il est possible de segmenter des images de documents Mausumi et Malay [4] développent une méthode de
à l’aide de plusieurs filtres selon des fréquences et des segmentation d’images de documents à l’aide du filtre de
orientations différentes (Figure 2). Gabor utilisé dans un environnement à base d’ondelette.
Une fonction de Gabor 2D « h » est une onde plane Le travail ainsi défini opte seulement pour le marquage
sinusoïdale modulée par une enveloppe gaussienne et des zones de texte présentes dans des documents
orientée avec un angle q selon l'axe X. La formulation contemporains (principalement pages de journaux) et
mathématique, dans le domaine spatial pour une une analyse de l’efficacité en intégrant l’outil Gabor
fréquence fondamentale u0 selon l'axe X (c.à.d. q = 0°), dans une analyse multirésolution.
est :
2.3. Ce qu’il faut retenir
1 −1 x 2 y 2
h x , y = exp [ ].cos 2 U 0 x (1)
2 x y 2 2 2
x y
Si les approches de segmentation d’images de
documents ascendantes/descendantes sont à privilégier
où sx (respectivement sy) est l’écart type de la lorsque l’on traite des documents fortement structurés où
gaussienne selon l'axe X (respectivement Y). les modèles sont connus, il semble plus approprié de se
Les filtres à orientation q (q∫0) sont obtenus en baser sur l’analyse de texture si, à l’instar des documents
effectuant une rotation de l'équation précédente. anciens, les images traitées sont faiblement structurées,
La sélectivité du banc de filtre en orientation et fortement bruitées et surtout caractérisées par une forte
fréquence est clairement illustrée dans le domaine variabilité de leur structure.
fréquentiel, c'est pour cette raison qu'on applique la L'objectif du filtrage multi-canaux, à base de filtres de
transformée de Fourier à l'équation (1), et on obtient Gabor, est de transformer les segments entre les
ainsi : différentes textures en des discontinuités détectables,
H(u,v) = TF(h(x,y)) = donc pouvoir délimiter les différentes textures présentes
2 2 sur une image et l’extraire à l’aide d’un filtre de Gabor
−1 u−u0 −1 uu 0
2 2
v v pour une fréquence et une orientation spécifiques.
A[exp [ 2
2 ]exp [ 2
2 ]] (2)
2 u v 2 u v On utilise alors un banc de filtres de Gabor
(fréquences et orientations sélectives) pour renvoyer les
différentes zones (surfaces) des images dans chaque
avec su = 1 / 2psx , sv = 1 / 2psy et A = 2psxsy .
2
3. canal, sachant que les zones de texte sont détectables à Le résultat de cette dernière fusion étant deux images,
des fréquences importantes comparées aux zones la première détermine les zones de textes de l’image
graphiques qui le sont pour de basses fréquences. d’origine, et la deuxième présente les zones graphiques.
L’union de ces deux images donne lieu à l’image
3. Méthode de segmentation proposée segmentée recherchée.
Nous allons décrire, dans ce qui suit, les différentes
Image d’Entrée étapes de notre système de segmentation proposé.
Filtrage 3-1 Bancs de Filtres et paramétrisation
En se basant sur les travaux de Jain et Bhattacharjee
Sous – Banc de Filtres de Sous – Banc de Filtres de [3] et Trygve et al. [2], on a opté pour la définition de
Gabor 1 Gabor 2 deux bancs de filtres, le premier spécifique pour
(Hautes Fréquence) (Basses Fréquence)
l’analyse du texte des images de documents anciens et le
deuxième est destiné à capter les zones graphiques de
GH1 GH1 GB1 GH1 ces mêmes images.
F1θ1 F 3θ 5 F’1θ1 F’3θ5 Le 1er banc manipule trois hautes fréquences qu’on a
jugé discriminantes pour l’analyse des zones de textes
Extraction de Caractéristiques (16√2, 32√2 et 64√2) et le 2ème utilise aussi trois basses
fréquences jugées fiables pour la détection des zones
graphiques (1√2, 2√2 et 4√2).On a opté pour cinq
orientations : 0°, 30°, 60°, 90° et 120°.
15 caractéristiques 15 caractéristiques Les images de documents anciens sont des images
textuelles par pixel graphiques par pixel riches en traits, à multiples orientations, ce qui fait que la
variabilité des orientations choisies est objective et
Classification
justifiée.
Image de Texte Image de Dessin 3.2. Images caractéristiques / Calcul de
Fusion des résultats l’énergie locale
L’étape suivante consiste à estimer l’énergie des
réponses des filtres dans une région locale autour de
chaque pixel. L’estimateur de l’énergie locale est utilisé
Image résultante Segmentée dans le but d’identifier les zones dans chaque canal.
Contrairement à beaucoup d’autres travaux [1], [2],
[3], [4], qui utilisent une fonction d’énergie locale non-
Figure 3. Schéma du processus de segmentation d’image
linéaire avec un facteur de saturation de canal, on a
utilisant un banc de filtres de Gabor
adopté la fonction d’amplitude simple comme valeur de
la fonction d’énergie locale engki(x,y) autour du pixel
Notre méthode consiste à définir deux bancs de filtres (x,y) [4]. Ce choix se justifie par le fait qu’une fonction
de Gabor, le premier destiné à détecter les zones d’énergie locale peut être pénalisante vu le caractère
graphiques en manipulant des basses fréquences, et le compensatoire de son expression. Alors, pour favoriser
deuxième utilise des hautes fréquences pour localiser les la précision, on décrit chaque pixel par sa seule fonction
zones de texte (figure 3). d’amplitude :
Une fonction d’énergie locale est appliquée sur engki(x,y) = hki(x,y) (3)
chaque image filtrée pour obtenir ainsi une image
caractéristique. Pour décider sur la classe d’appartenance où hki(x,y) est la réponse du kème filtre au pixel (x,y).
d’un pixel (Texte/Dessin), on a appliqué une Formellement, l’image caractéristique Featki(x,y)
Classification Floue en introduisant le concept de degré correspondante à l’image d’entrée hki est donnée par la
d’appartenance qui détermine la « force » de chaque formule suivante :
pixel à appartenir à une classe spécifique en raisonnant 1
sur la base d’un intervalle de valeurs (seuils Featki(x,y )= 2 m ,n h ki m , n {(m,n) eGx,y} (4)
G
d’appartenance) calculés pour chaque pixel dans un
Où Y() est l’estimateur de l’énergie locale et Gx,y est une
voisinage donné. A partir de la base des images obtenue
fenêtre GxG centrée au pixel de coordonnées (x,y).
(images de Texte et images de Dessin), on établit une
Il a été constaté qu’une fenêtre de taille 9x9 est
fusion d’images pour chacune des classes à part, en
appropriée [4].
associant des poids de contribution à la définition de la
classe (texte ou dessin) pour chacune des orientations
(méthode de fusion par vote).
3
4. 3.3. Classification
Sur les images caractéristiques obtenues, on applique Calculer l’écart type (ρ) sur les degrés d’appartenance de
une classification de type flou non supervisée dont le la matrice de voisinage (%)
principe consiste à trouver une partition de chaque Si ρ < 50% alors (1) sinon (2)
image, caractérisée par le degré d’appartenance d’un (1) Si deg(i,j) >= Moy(deg(k,l)) i-2<=k<=i+2,
pixel (i,j) à une classe Ck [7], [8]. L’idée qui soutient Moy : moyenne j-2<=l<=j+2,
l’approche par la logique floue est la possibilité Alors pixel (i,j) e Classe1 Sinon pixel (i,j) e Classe 1
d’appartenance à la fois à plusieurs classes pour un pixel
ou une région donnée de l’image. L’approche par la (2) °/Calculer le nombre d’éléments avec un degré
logique floue en segmentation d’images se justifie donc d’appartenance supérieur à deg(i,j) (nb1)
grâce à sa capacité d’engendrer une matrice des degrés Et le nombre d’éléments avec un degré
d’appartenance. L’idée est qu’au lieu de chercher un d’appartenance inférieur à deg(i,j) (nb2);
seuil unique S décidant l’appartenance à un ensemble °/ Si nb1>=nb2 alors pixel (i,j) e Classe1 Sinon
dans un contexte donné, il semble plus réaliste de pixel (i,j) e Classe 1
considérer deux seuils S1<S2, avec une fonction
d’appartenance donnant à chaque pixel un degré
d’appartenance (compris entre 0 et 1) selon lequel on
décide sur son appartenance à une classe. Suite à cette opération, chaque pixel sera attribuer à
Dans notre cas, pour chaque banc de filtre, il existe une classe, ‘Texte’ ou ‘Non’ pour le premier sous-banc
deux classes : Texte – Non-Texte pour le 1er banc et de filtres et ‘Dessin’ ou ‘Non’ pour le second (figure 4).
Dessin – Non-Dessin pour le 2ème. Une fois les pixels affectés à leurs classes, on procède
L’initialisation des degrés d’appartenance se fait à une fusion des résultats d’affectation pour ne garder
comme suit : qu’une seule classe par pixel et fournir ainsi le résultat
final de notre système de segmentation d’images de
Si Fk(i,j) < S1 Alors App(i,j) C1; documents anciens.
Uij-1 Fk(i,j);
Sinon Si Fk(i,j) > S2 Alors App(i,j) C2; Matrices des degrés d’appartenance
Uij-2 Fk(i,j) produites par l’opération de
Uij-1 normalisation des résultats de filtrage
dans un Sous Banc de Filtres de Gabor.
Fk(i,j) : Degré d’appartenance du pixel (i,j)
VC(i,j)={Uij-k,k=1..15}
{résultat de la fuzzyfication des Featk(i,j)} e [0,1]; °/ Pour le Sous Banc de Filtres 1 (HF) :
1 D
App : Matrice des affectations. deg(i, j ) = ∑ U ij −l , D = 15 Classe1 = Texte
Classe1 = Non Texte
C1 : Texte pour banc1 / Dessin pour banc2 D l =1
°/ Pour le Sous Banc de Filtres 2 (BF) :
C2 : Non-Texte pour banc1/Non-Dessin pour banc2 Si deg(i,j)<S1 I(i,j)eClasse1 Classe1 = Dessin
[Uij-k] : matrice des degrés d’appartenance Classe1 = Non Dessin
Si deg(i,j)>S2 I(i,j)eClasse1
Parmi les techniques de la logique floue en
classification, l’algorithme C-Moyennes Floue (CMF) a Figure 4. Affectation des pixels aux classes
été choisi pour son autonomie due à l’usage d’un correspondantes (Initialisation de la classification
classificateur non supervisé. Cet algorithme utilise un floue)
critère de minimisation des distances intra-classes et de
maximisation des distances inter-classes mais en tenant 3.5. Fusion des résultats de chaque sous banc de
compte des degrés d’appartenance. filtres
L’exécution de cet algorithme permet d’affecter les
pixels dont le degré d’appartenance est compris entre S1 Dans cette phase, on intègre les résultats de la
et S2 aux classes jugées adéquates [7]. classification précédemment réalisée, et on génère une
affectation plus appropriée des pixels. Comme résultat,
3.4. Analyse de seuillage on obtient deux sous images de l’image d’origine, l’une
produisant l’image du texte, et l’autre donne l’image des
Le seuillage adopté dans notre méthode est trop zones graphiques.
simple à mettre en œuvre et se situe dans la phase de On a adopté une heuristique de fusion par vote [7],
défuzzyfication. [8], [9] moyennée par le nombre de filtres utilisés dans
Il s’agit d’un seuillage local et adaptatif pour tout chaque banc, et dont le résultat est comparé à un seuil
pixel dans un voisinage de 3x3. qu’on a fixé à 50%.
Pour chaque sous-banc de filtres, le seuillage peut être
formalisé comme suit : 3.6. Génération de l’image segmentée
A partir du résultat de la fusion des sorties des deux
sous banc de filtres, on regroupe les 2 images produites
4
5. pour avoir ainsi l’image segmentée de l’image de
document ancien introduite en entrée.
On définit une règle heuristique de priorité textuelle,
on utilise l’opérateur XOR entre les deux résultats de
classification (image de texte et image de dessin) pour
éviter le conflit d’affectation ; le résultat de fusion
contient, en premier lieu, les composants textuels (qui
sont plus sûrs), en les excluant du résultat de
Filtrage Filtrage
classification de dessin, ensuite on affecte le résultat des
(Banc de filtres 2) (Banc de filtres 1)
pixels dessins restants. Les pixels sans étiquettes forment
Basses Fréquences Basses Fréquences
le fond de l’image (figure 5).
Résultat de FCM – 2 Résultat de FCM - 1
Sous – Banc de Filtres 2 XOR Sous - Banc de Filtres1 Vecteurs Vecteurs
(Détection des zones (Détection des zones de Caractéristiques CMF Caractéristiques Texte
graphiques) textes) Dessin
Priorité Priorité
Min Max
XOR
Image de document
ancien segmentée :
Texte / Dessin / Fond
Figure 5. Processus de fusion des résultats de
classification floue des 2 Sous Banc de Filtres
Texte
4. Résultats Dessin
Nous avons implanté et testé notre système sur une Fond
base de 120 images de documents anciens tirées de
quatre ouvrages de Vésale et nous avons calculé le taux Image de document ancien segmentée
de reconnaissance obtenu (Voir figures 6 et 7).
√2 Hz 8√2 Hz 16√2 Hz 64√2 Hz Figure 7. Exemple d’application du système de
Apparition des zones Apparition des zones segmentation floue d’images de documents anciens par
graphiques pour des textuelles pour des le filtre de Gabor
fréquences basses fréquences hautes
(Résultats de filtrage (Résultats de filtrage Voici quelques résultats obtenus :
après seuillage) après seuillage)
0° 98.76% de pixels bien classés
01.34% de pixels mal classés
0% de pixels non classés
60°
²
98.75% de pixels bien classés
01.21% de pixels mal classés
90° 0.04% de pixels non classés
Figure 6. Effets de la fréquence et l’orientation sur le
résultat de filtrage (Résultats après seuillage)
5
6. sans bordure et avec lettrine seule, gros dessin, gros
texte,….), un banc de filtres spécifique est nécessaire à
définir.
93.08% de pixels bien classés
6.02% de pixels mal classés Les imperfections présentes dans quelques décisions
0.90% de pixels non classés de notre système peuvent être corrigées en incluant des
mesures de texture dans la signature définie
précédemment.
Les applications à prévoir comme complément de
notre travail peuvent être résumées dans ce qui suit :
Discussion ► Intégration des mesures de texture de Tamura dans
notre système et le valider sur une base d’images de
Les résultats obtenus sont encourageants, cependant, documents anciens ;
les valeurs calculées sur les exemples précédents ne sont ► Détermination des propriétés typographiques des
pas les mêmes pour d’autres types d’images de documents (types du texte / tailles des fonte,…) ;
documents anciens (images de documents avec bordures ► Définir des primitives optimales et efficaces pour la
texturées, des images avec de grands portraits finement quantification et la classification (segments, régions,...)
texturée, images avec des zones ombrées,…). afin d’éviter le parcours exhaustif et répétitif de tous les
Les résultats de la segmentation sont de plus en plus pixels ;
parfaits que les zones graphiques soient de plus en plus ► Utiliser l'outil Gabor pour l'indexation et la
homogènes, cependant, si les zones graphiques consultation des bases de données d'Images de
contiennent des textures fines (similaires à des lignes, Documents Anciens.
hachurées), alors le système décide du comportent
textuel de ces zones. 6. Références
La structure des ombres, qui est principalement
linéaire, fait que ces zones seront classées en tant que [1] S. Raju S, P. Basa Pati, and A G Ramakrishnan, "Gabor
zones de texte. Filter Based Block Energy for Text Extraction from Digital
La taille de la police peut basculer la décision du Document Images", Proc. First International Workshop on
système sur l’appartenance des pixels de ces zones, c-à-d Document Image Analysis for Libraries (DIAL’04) – 2004
que tant que la taille grandisse, le système change la IEEE
classe d’appartenance de texte en dessin, ceci étant
[2] T. Randen, J. Håkon Husǿy, ''Segmentation of Text/Image
logique vu qu’un caractère de grande taille est qualifié
Documents Using Texture Approaches'' Proc. Norway, Juin
en zone homogène et se localise en basse fréquence. 1994.
Malgré les bons résultats obtenus par notre système de
[3] A. K. Jain and S. Bhattacharjee, ''Text Segmentation Using
segmentation floue d’images de documents anciens, qui
Gabor Filters for Automatic Document Processing'', Machine
a atteint un taux de 95% de bonnes réponses, un système Vision and Applications (1992) 5 : 169-184.
de segmentation basé uniquement sur les réponses du
filtre de Gabor est loin d’être parfait ou meilleur. De ce [4] M. Acharyya and M. K. Kundu, ''Document Image
fait, d’autres connaissances (mesures de texture), autres Segmentation Using Wavelet Scale-Space Features'', IEEE
que les réponses des filtres de Gabor, sont indispensables Transactions on Circuits and Systems for Video Technology,
pour améliorer les résultats et corriger les imperfections. Vol. 12, n° 12, December 2002.
[5] N. Journet, R. Mullot, J.Y. Ramel, V. Eglin, "Ancient
5. Conclusion et perspectives Printed Documents indexation :a new approach", International
Conference on Advances in Pattern Recognition, August 2005.
Nous avons exploité les propriétés du filtre de Gabor
pour développer un système de segmentation floue [6] K. Hammouda, ''Texture Segmentation Using Gabor
d’images de documents anciens. Filters'', SYDE 775, Image Processing, Department of Systems
A chaque pixel, nous avons associé une signature Design Engineering, University of Waterloo, Canada,
December 2000.
composée de deux parties : l’une textuelle et l’autre
graphique et dont chacune est définie par les réponses de [7] Y. Smara, N. Ouarab, "Techniques de fusion et de
filtrage. classification floue d’images satellitaires multisources pour la
L’approche floue adoptée se justifie par le caractère caractérisation et le suivi de l’extension du tissu urbain de la
incertain de définition de seuil ou de borne séparant les région d’Alger (Algérie)", 2nd FIG Regional Conference –
réponses des pixels graphiques et des pixels des zones de Marrakech, Morocco, December 2-5, 2003.
texte.
Les résultats obtenus sont très encourageants, [8] J.C.Bezdek, "Pattern Recognition with Fuzzy Objective
cependant, la généralisation de l’ensemble des Function Algorithms", Plenum Press, New York, 1981.
paramètres du banc de filtres semble une tâche difficile,
[9] A. Martin, "Fusion de classifieurs pour la classification
voire même impraticable, de ce fait, pour chaque classe d’images sonar", Revue des Nouvelles Technologies de
d’images de documents anciens (images avec bordure, l’Information RNTI-1, 2004.
6