5. Tokénisation
• La tokenisation peut se définir comme l’opération de découpage du texte à
analyser en groupes de mots, dont on a éliminé les éléments annexes, exemple les
signes de ponctuation
• la première étape de l’indexation
5
7. Racinisation
• La stemmatisation ou racinisation est le nom donné au procédé qui vise à
transformer les flexions en leur radical ou stemme
• La racine d’un mot (stemme ) est identifiée par la suppression du préfixe, le suffixe
d’un mot
7
9. Troncature
• permet de rechercher des termes qui ont une racine identique en
substituant un ou plusieurs caractères par un symbole : ce symbole est
l’astérisque
• Elle peut être utilisée :
• à droite d'un mot
• à gauche d'un mot
• à l'intérieur d'un mot
9
12. Étiquetage
• l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS
tagging en anglais)
• consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son
contexte et de connaissances lexicales
• but : analyser chaque mot pour lui associer divers types d’informations telles que
la catégorie grammaticale, des traits morphologiques ainsi que le lemme
correspondant
12
15. Étiquetage
• Étiqueteurs supervisés: sont entraînés sur des corpus préalablement étiquetés, ce
qui permet de préparer toutes les données nécessaires pour l’étiquetage
• Étiqueteurs non supervisés: ne nécessitent pas de corpus préalablement étiqueté
pour la phase d’entraînement
15
16. Étiquetage
• Etiquetage à base de règles: s’appuie sur des règles grammaticales ou
morphologiques
• Etiquetage statistique : caractérise les étiqueteurs qui utilisent des fréquences et
des calculs de probabilité
• Etiquetage à base de réseaux de neurones : rarement utilisée dans le domaine du
TAL à cause de ses difficultés d'application
16
17. Étiquetage
• L’étiquetage morphosyntaxique automatique est processus qui s’effectue
généralement en trois étapes :
• La segmentation du texte en unités lexicales
• L’étiquetage qui consiste à attribuer pour chaque unité lexicale l’ensemble des étiquettes
morphosyntaxiques possibles
• La désambiguïsation qui permet d'attribuer, pour chacune des unités lexicales et en
fonction de son contexte, l'étiquette morphosyntaxique pertinente
17
18. Étiquetage
• L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de
traitement du langage comme :
• la lemmatisation
• l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse
syntaxique
• la synthèse vocale (où il sert à désambiguïser les homographes comme en distinguant le
verbe du nom)
• l’extraction terminologique
18
19. Étiquetage
• Exemple:
L'indice parisien est passé pour la première fois sous le seuil symbolique des 4 500 points.
L' : article défini indice : nom parisien : adjectif est : verbe au présent
passé : verbe au participe passé pour : préposition la : article défini
première : adjectif fois : nom sous : préposition le : article défini seuil : nom
symbolique : adjectif des : préposition 4 500 : valeur numérique points : nom
. : signe de ponctuation
19
22. Étiquetage
• Treetagger
• un outil qui permet d'annoter un texte avec des informations sur les parties du discours
(genre de mots: noms, verbes, infinitifs et particules) et des informations de
lemmatisation
• permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol,
le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens
22
25. Lemmatisation
• Un lemme (forme canonique) désigne le terme générique qui comprend les
différentes formes lexicales qui peuvent dériver de ce terme
• La lemmatisation est une analyse lexicale qui conduit au regroupement de
termes par lemmes, permet de diminuer fortement le nombre de mots analysés,
en éliminant toutes les flexions et les dérivations grammaticales
• Certains lemmatiseurs peuvent traiter plusieurs langues (exemple :TreeTagger
traite les langues anglaise et allemande)
25
26. Lemmatisation
• Exemples:
• “jouer” : possède différentes flexions qui correspondent à ses formes conjuguées à
diverses personnes et temps
• professionnelles, professionnelle, professionnels professionnel
• Exception fils correspondre à deux lemmes différents, fil et fils
26