Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Pourquoi fouiller les publications
scientiﬁques ?
Mathieu Roche
ABES - 21 mai 2014
1 / 32

Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientiﬁques au Cirad
Prospectives
Plan
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientiﬁques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
2 / 32

Introduction
Prospectives
Les 3V du "Big Data"
Volume : Données massives
Variété : Données hétérogènes "syntaxiquement" et
"sémantiquement"
Vélocité : Données disponibles par ﬂux
Et encore plein d’autres V : Versatilité, Véracité, Visualisation,
Valorisation, etc.
3 / 32

Introduction
Prospectives
Fouille de données
4 / 32

Introduction
Prospectives
L’évaluation
1 Introduction
L’évaluation
4 Prospectives
5 / 32

Introduction
Prospectives
L’évaluation
Extraction/Acquisition Exploitation/Filtrage
Processus de Fouille de Textes
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
Données
Textuelles Connaissances
6 / 32

Introduction
Prospectives
L’évaluation
Exemple
Il vend son bien de Montpellier
7 / 32

Introduction
Prospectives
L’évaluation
Traitement linguistique du mot
Sélection des mots ayant une fonction grammaticale déﬁnie
(par exemple, noms, verbes, adjectifs)
→ sélection des mots vend, bien et Montpellier
Remarque : distinction du mot bien entre nom, adverbe et adjectif
Exemple - Etiquetage
Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep
Montpellier/NomPropre
Principe de l’étiquetage grammatical (Brill’s tagger) :
lexiques
règles lexicales
règles contextuelles
8 / 32

Introduction
Prospectives
L’évaluation
Traitement linguistique du mot
Rassemblement des mots d’une même famille présents sous forme
ﬂéchie : lemmatisation ou radicalisation
→ vend : vendre
Ajout de connaissances sémantiques
→ vendre est lié au concept du Commerce
Résolution anaphorique
→ remplacement du pronom
9 / 32

Introduction
Prospectives
L’évaluation
Traitement linguistique du syntagme
Des collocations aux syntagmes/termes
Sens global déductible des unités composant le groupe
(chapeau en paille)
Connaissances sémantiques
Connaissances syntaxiques (patrons ADJ-NOM,
NOM-PREP-NOM, etc)
Méthodes de TAL pour l’extraction de syntagmes/termes :
linguistiques, statistiques, mixtes
10 / 32

Introduction
Prospectives
L’évaluation
Résumé : du Corpus... aux descripteurs linguistiques
Mais pour des
personnes très
spontanées ...
Mais/COO pour/PREP
des/DTN:pl
personnes/SBC:pl
très/ADV
spontanées/ADJ
...
Etiquetage
Extraction des
descripteurs (par
exemple, syntagmes)
fichier clients
conseiller clientèle
front page
assurance qualité
logiciel ciel
...
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
Corpus
Nettoyage
Normalisation
Processus de Fouille de textes
11 / 32

Introduction
Prospectives
L’évaluation
1 Introduction
L’évaluation
4 Prospectives
12 / 32

Introduction
Prospectives
L’évaluation
Recherche d’Information
Première étape : représentation des textes... l’approche "sac de
mots"
Pondération statistique des descripteurs : TF, IDF, TF-IDF,
13 / 32

Introduction
Prospectives
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) :
But : déterminer les K plus proches voisins de textes à prédire
Principe : La classe majoritaire propre à ces K plus proches voisins
est choisie pour les textes à prédire (ou la classe majoritaire après
pondération avec la mesure de similarité)
Paramètres : La valeur K et la mesure de similarité (par exemple,
la mesure cosinus)
14 / 32

Introduction
Prospectives
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) - Exemple :
15 / 32

Introduction
Prospectives
L’évaluation
1 Introduction
L’évaluation
4 Prospectives
16 / 32

Introduction
Prospectives
L’évaluation
Précision = 9
10 = 90%
17 / 32

Introduction
Prospectives
L’évaluation
Précision = 9
10 = 90%
18 / 32

Introduction
Prospectives
L’évaluation
Précision = 9
10 = 90% / Rappel = 9
50 = 18%
19 / 32

Introduction
Prospectives
1 Introduction
L’évaluation
4 Prospectives
20 / 32

Introduction
Prospectives
corpus Cirad (∼15 Mo)
corpus TETIS (∼500 Ko)
Merci à la Délégation à l’Information Scientiﬁque Technique du Cirad
21 / 32

Introduction
Prospectives
• Identiﬁcation automatique d’acronymes dans les textes (1)
Méthode
Étape 1 : Extraction des candidats (méthode par patron)
Étape 2 : Filtrage des candidats (méthode statistique)
Mesure Web (fouille du Web) :
WebDice(acro, def ) = 2×hits(acro,def )
hits(acro)+hits(def )
Exemple :
WebDice(BSV , Banana streak virus) =
2×hits(”BSV ” AND ”Banana streak virus”)
hits(”BSV ”)+hits(”Banana streak virus”)
22 / 32

Introduction
Prospectives
• Identiﬁcation automatique d’acronymes dans les textes (2)
Résultats (données Cirad) :
Acronym Possible deﬁnition WebDice
ATPSM Agricultural Trade Policy Simulation Model 1.3014
TYLCV Tomato yellow leaf curl virus 0.7167
NRPS NonRibosomal Peptide Synthetase 0.4423
CIAT Centro international de agricultura tropical 0.1408
ACMV African cassava mosaic virus 0.0970
CSSV Cacao swollen shoot virus 0.0245
VLE Virtual Laboratory Environment 0.0222
CLF Corynespora Leaf Fall 0.0208
BSV Banana streak virus 0.0053
BMR Bois Massif Reconstitué 0.0046
ER Ehrlichia ruminantium 0.0004
BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001
ASA Articulation du Semi-aride 0
MAE Mesures agrienvironnementales 0
[Roche, ISA workshop’2014]
23 / 32

Introduction
Prospectives
• Identification automatique d’Entités Spatiales (ES) dans les textes
Utilisation de patrons d’extraction pour identifier
des indicateurs spatiaux (orientation, distance, adjacence, inclusion,
figure géométrique)
des Entités Spatiales Absolues et Relatives
[Kergosien et al., IJGIS’2014]
24 / 32

Introduction
Prospectives
• Identiﬁcation automatique des termes dans les textes (1)
Travaux menés avec Sophie Fortuno, (Cirad, TETIS)
Méthode
Étape 1 : Extraction des candidats termes (méthodes linguistiques +
statistiques)
Exemple : "soft contact" vs. "soft contact lens"
Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes +
des ressources comme Agrovoc)
25 / 32

Introduction
Prospectives
• Identiﬁcation automatique des termes dans les textes (2) – Étape 1
[Lossio et al., IJKDB’2014]
26 / 32

Introduction
Prospectives
• Identiﬁcation automatique des termes dans les textes (3) – Étape 2
+ prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO –
Food and Agriculture Organization)
27 / 32

Introduction
Prospectives
• Identiﬁcation automatique des termes dans les textes (3) – Résultats
Résultats quantitatifs [stage étudiants en informatique (Master IPS)]
Corpus Cirad : 28% des termes simples / 12% des termes
composés de BioTex sont présents dans Agrovoc
Corpus TETIS : 25% des termes simples / 1% des termes
composés de BioTex sont présents dans Agrovoc
Résultats qualitatifs [stage étudiante "Ressources documentaires et bases
de données"]
Déﬁnition de critères de pertinence liés à l’indexation :
sélectivité, objectivité, cohérence, indépendance contextuelle
28 / 32

Introduction
Prospectives
• Identiﬁcation automatique des termes dans les textes (3) – Résultats
Exemples de termes (en français) : développement durable, sécurité
alimentaire, croissance démographique, développement rural,
aménagement du territoire, gouvernance territoriale, etc.
Publication en Open Data (CKAN – Comprehensive Knowledge
Archive Network) :
Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3)
publications Cirad associées (numéros)
29 / 32

Introduction
Prospectives
1 Introduction
L’évaluation
4 Prospectives
30 / 32

Introduction
Prospectives
Veille d’épidémiologie animale : Comment détecter des signaux faibles
dans la masse de données ?
Croisement des publications avec d’autres types de données (dépêches,
presse, tweets, etc.)
31 / 32

Introduction
Prospectives
Remerciements
Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne
Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio
Lossio (LIRMM)
Les documentalistes : Marie-Claude Deboin (Cirad),
Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad),
Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea)
Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS -
UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir
32 / 32

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (19)

Ähnlich wie Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Ähnlich wie Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur (20)

Mehr von ABES

Mehr von ABES (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (19)

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur