SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Pourquoi fouiller les publications
scientifiques ?
Mathieu Roche
ABES - 21 mai 2014
1 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Plan
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
2 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les 3V du "Big Data"
Volume : Données massives
Variété : Données hétérogènes "syntaxiquement" et
"sémantiquement"
Vélocité : Données disponibles par flux
Et encore plein d’autres V : Versatilité, Véracité, Visualisation,
Valorisation, etc.
3 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Fouille de données
4 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
5 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Extraction/Acquisition Exploitation/Filtrage
Processus de Fouille de Textes
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
Données
Textuelles Connaissances
6 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Les descripteurs linguistiques
Exemple
Il vend son bien de Montpellier
7 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du mot
Sélection des mots ayant une fonction grammaticale définie
(par exemple, noms, verbes, adjectifs)
→ sélection des mots vend, bien et Montpellier
Remarque : distinction du mot bien entre nom, adverbe et adjectif
Exemple - Etiquetage
Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep
Montpellier/NomPropre
Principe de l’étiquetage grammatical (Brill’s tagger) :
lexiques
règles lexicales
règles contextuelles
8 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du mot
Rassemblement des mots d’une même famille présents sous forme
fléchie : lemmatisation ou radicalisation
→ vend : vendre
Ajout de connaissances sémantiques
→ vendre est lié au concept du Commerce
Résolution anaphorique
→ remplacement du pronom
9 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du syntagme
Des collocations aux syntagmes/termes
Sens global déductible des unités composant le groupe
(chapeau en paille)
Connaissances sémantiques
Connaissances syntaxiques (patrons ADJ-NOM,
NOM-PREP-NOM, etc)
Méthodes de TAL pour l’extraction de syntagmes/termes :
linguistiques, statistiques, mixtes
10 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Résumé : du Corpus... aux descripteurs linguistiques
Mais pour des
personnes très
spontanées ...
Mais/COO pour/PREP
des/DTN:pl
personnes/SBC:pl
très/ADV
spontanées/ADJ
...
Etiquetage
Extraction des
descripteurs (par
exemple, syntagmes)
fichier clients
conseiller clientèle
front page
assurance qualité
logiciel ciel
...
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
Corpus
Nettoyage
Normalisation
Processus de Fouille de textes
11 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
12 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Recherche d’Information
Première étape : représentation des textes... l’approche "sac de
mots"
Pondération statistique des descripteurs : TF, IDF, TF-IDF,
13 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) :
But : déterminer les K plus proches voisins de textes à prédire
Principe : La classe majoritaire propre à ces K plus proches voisins
est choisie pour les textes à prédire (ou la classe majoritaire après
pondération avec la mesure de similarité)
Paramètres : La valeur K et la mesure de similarité (par exemple,
la mesure cosinus)
14 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) - Exemple :
15 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
16 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90%
17 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90%
18 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90% / Rappel = 9
50 = 18%
19 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
20 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
corpus Cirad (∼15 Mo)
corpus TETIS (∼500 Ko)
Merci à la Délégation à l’Information Scientifique Technique du Cirad
21 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (1)
Méthode
Étape 1 : Extraction des candidats (méthode par patron)
Étape 2 : Filtrage des candidats (méthode statistique)
Mesure Web (fouille du Web) :
WebDice(acro, def ) = 2×hits(acro,def )
hits(acro)+hits(def )
Exemple :
WebDice(BSV , Banana streak virus) =
2×hits(”BSV ” AND ”Banana streak virus”)
hits(”BSV ”)+hits(”Banana streak virus”)
22 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (2)
Résultats (données Cirad) :
Acronym Possible definition WebDice
ATPSM Agricultural Trade Policy Simulation Model 1.3014
TYLCV Tomato yellow leaf curl virus 0.7167
NRPS NonRibosomal Peptide Synthetase 0.4423
CIAT Centro international de agricultura tropical 0.1408
ACMV African cassava mosaic virus 0.0970
CSSV Cacao swollen shoot virus 0.0245
VLE Virtual Laboratory Environment 0.0222
CLF Corynespora Leaf Fall 0.0208
BSV Banana streak virus 0.0053
BMR Bois Massif Reconstitué 0.0046
ER Ehrlichia ruminantium 0.0004
BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001
ASA Articulation du Semi-aride 0
MAE Mesures agrienvironnementales 0
[Roche, ISA workshop’2014]
23 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’Entités Spatiales (ES) dans les textes
Utilisation de patrons d’extraction pour identifier
des indicateurs spatiaux (orientation, distance, adjacence, inclusion,
figure géométrique)
des Entités Spatiales Absolues et Relatives
[Kergosien et al., IJGIS’2014]
24 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (1)
Travaux menés avec Sophie Fortuno, (Cirad, TETIS)
Méthode
Étape 1 : Extraction des candidats termes (méthodes linguistiques +
statistiques)
Exemple : "soft contact" vs. "soft contact lens"
Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes +
des ressources comme Agrovoc)
25 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (2) – Étape 1
[Lossio et al., IJKDB’2014]
26 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Étape 2
+ prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO –
Food and Agriculture Organization)
27 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Résultats
Résultats quantitatifs [stage étudiants en informatique (Master IPS)]
Corpus Cirad : 28% des termes simples / 12% des termes
composés de BioTex sont présents dans Agrovoc
Corpus TETIS : 25% des termes simples / 1% des termes
composés de BioTex sont présents dans Agrovoc
Résultats qualitatifs [stage étudiante "Ressources documentaires et bases
de données"]
Définition de critères de pertinence liés à l’indexation :
sélectivité, objectivité, cohérence, indépendance contextuelle
28 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Résultats
Exemples de termes (en français) : développement durable, sécurité
alimentaire, croissance démographique, développement rural,
aménagement du territoire, gouvernance territoriale, etc.
Publication en Open Data (CKAN – Comprehensive Knowledge
Archive Network) :
Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3)
publications Cirad associées (numéros)
29 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
30 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Veille d’épidémiologie animale : Comment détecter des signaux faibles
dans la masse de données ?
Croisement des publications avec d’autres types de données (dépêches,
presse, tweets, etc.)
31 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Remerciements
Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne
Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio
Lossio (LIRMM)
Les documentalistes : Marie-Claude Deboin (Cirad),
Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad),
Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea)
Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS -
UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir
32 / 32

Weitere ähnliche Inhalte

Andere mochten auch

Gans test
Gans testGans test
Gans testNSGANS
 
Web Analytics classement CybereStat
Web Analytics classement CybereStatWeb Analytics classement CybereStat
Web Analytics classement CybereStatXjarrin
 
Pca raperie resume non tech
Pca raperie resume non tech Pca raperie resume non tech
Pca raperie resume non tech Arnaud Wéry
 
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.htmlMercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.htmlArquitecto bogota
 
Six.msu.presentation
Six.msu.presentationSix.msu.presentation
Six.msu.presentationwhitsizzle
 
Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?CYBERFRANCE
 
Saneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogoSaneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogoGobernabilidad
 
EDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUPEDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUPqaz1
 
Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Patrice Piardon
 
FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)BobMagotteaux
 
les noceurs
les noceursles noceurs
les noceursLe Point
 
Desnutricion
DesnutricionDesnutricion
DesnutricionUNAM
 

Andere mochten auch (19)

Examen 1º (1)
Examen 1º (1)Examen 1º (1)
Examen 1º (1)
 
Gans test
Gans testGans test
Gans test
 
Web Analytics classement CybereStat
Web Analytics classement CybereStatWeb Analytics classement CybereStat
Web Analytics classement CybereStat
 
Corporativa
CorporativaCorporativa
Corporativa
 
Pca raperie resume non tech
Pca raperie resume non tech Pca raperie resume non tech
Pca raperie resume non tech
 
ma ville
ma villema ville
ma ville
 
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.htmlMercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
 
Caso arturo
Caso arturoCaso arturo
Caso arturo
 
Six.msu.presentation
Six.msu.presentationSix.msu.presentation
Six.msu.presentation
 
Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?
 
Saneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogoSaneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogo
 
EDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUPEDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUP
 
Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite)
 
Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12
 
FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)
 
Tics
TicsTics
Tics
 
les noceurs
les noceursles noceurs
les noceurs
 
Desnutricion
DesnutricionDesnutricion
Desnutricion
 
Continuidad
ContinuidadContinuidad
Continuidad
 

Ähnlich wie Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshscarovalerie37
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitcarovalerie37
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDAnonue12
 
Les étapes de la recherche documentaire
Les étapes de la recherche documentaireLes étapes de la recherche documentaire
Les étapes de la recherche documentairezebrezebu
 
Esc tls méthodologie de recherche
Esc tls méthodologie de rechercheEsc tls méthodologie de recherche
Esc tls méthodologie de recherche02111978
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeSCD Paris-Sorbonne
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)URFIST de Paris
 

Ähnlich wie Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur (20)

Polytech geii sept2016
Polytech geii sept2016Polytech geii sept2016
Polytech geii sept2016
 
Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshs
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droit
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
C2i d4 scd-amu 2016
C2i d4 scd-amu 2016C2i d4 scd-amu 2016
C2i d4 scd-amu 2016
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
IUT - PPP "métiers de la chimie"- septembre 2014
IUT - PPP "métiers de la chimie"- septembre 2014IUT - PPP "métiers de la chimie"- septembre 2014
IUT - PPP "métiers de la chimie"- septembre 2014
 
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
 
Le web sémantique - Sylvie Fayet
Le web sémantique - Sylvie FayetLe web sémantique - Sylvie Fayet
Le web sémantique - Sylvie Fayet
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
Les étapes de la recherche documentaire
Les étapes de la recherche documentaireLes étapes de la recherche documentaire
Les étapes de la recherche documentaire
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
Esc tls méthodologie de recherche
Esc tls méthodologie de rechercheEsc tls méthodologie de recherche
Esc tls méthodologie de recherche
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
M2 VPO nov. 2015
M2 VPO nov. 2015M2 VPO nov. 2015
M2 VPO nov. 2015
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)
 
M2 bcmp 2015 2016
M2 bcmp 2015 2016M2 bcmp 2015 2016
M2 bcmp 2015 2016
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 

Mehr von ABES

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreABES
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...ABES
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"ABES
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"ABES
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"ABES
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"ABES
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"ABES
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"ABES
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"ABES
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" ABES
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"ABES
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesABES
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...ABES
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2ABES
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1ABES
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"ABES
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...ABES
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...ABES
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...ABES
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...ABES
 

Mehr von ABES (20)

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibre
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'Abes
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
 

Kürzlich hochgeladen

PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 

Kürzlich hochgeladen (19)

PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

  • 1. Pourquoi fouiller les publications scientifiques ? Mathieu Roche ABES - 21 mai 2014 1 / 32
  • 2. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Plan 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 2 / 32
  • 3. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les 3V du "Big Data" Volume : Données massives Variété : Données hétérogènes "syntaxiquement" et "sémantiquement" Vélocité : Données disponibles par flux Et encore plein d’autres V : Versatilité, Véracité, Visualisation, Valorisation, etc. 3 / 32
  • 4. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Fouille de données 4 / 32
  • 5. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 5 / 32
  • 6. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Extraction/Acquisition Exploitation/Filtrage Processus de Fouille de Textes - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Données Textuelles Connaissances 6 / 32
  • 7. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Les descripteurs linguistiques Exemple Il vend son bien de Montpellier 7 / 32
  • 8. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Sélection des mots ayant une fonction grammaticale définie (par exemple, noms, verbes, adjectifs) → sélection des mots vend, bien et Montpellier Remarque : distinction du mot bien entre nom, adverbe et adjectif Exemple - Etiquetage Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep Montpellier/NomPropre Principe de l’étiquetage grammatical (Brill’s tagger) : lexiques règles lexicales règles contextuelles 8 / 32
  • 9. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Rassemblement des mots d’une même famille présents sous forme fléchie : lemmatisation ou radicalisation → vend : vendre Ajout de connaissances sémantiques → vendre est lié au concept du Commerce Résolution anaphorique → remplacement du pronom 9 / 32
  • 10. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du syntagme Des collocations aux syntagmes/termes Sens global déductible des unités composant le groupe (chapeau en paille) Connaissances sémantiques Connaissances syntaxiques (patrons ADJ-NOM, NOM-PREP-NOM, etc) Méthodes de TAL pour l’extraction de syntagmes/termes : linguistiques, statistiques, mixtes 10 / 32
  • 11. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Résumé : du Corpus... aux descripteurs linguistiques Mais pour des personnes très spontanées ... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ ... Etiquetage Extraction des descripteurs (par exemple, syntagmes) fichier clients conseiller clientèle front page assurance qualité logiciel ciel ... - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus Nettoyage Normalisation Processus de Fouille de textes 11 / 32
  • 12. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 12 / 32
  • 13. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Recherche d’Information Première étape : représentation des textes... l’approche "sac de mots" Pondération statistique des descripteurs : TF, IDF, TF-IDF, 13 / 32
  • 14. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) : But : déterminer les K plus proches voisins de textes à prédire Principe : La classe majoritaire propre à ces K plus proches voisins est choisie pour les textes à prédire (ou la classe majoritaire après pondération avec la mesure de similarité) Paramètres : La valeur K et la mesure de similarité (par exemple, la mesure cosinus) 14 / 32
  • 15. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) - Exemple : 15 / 32
  • 16. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 16 / 32
  • 17. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 17 / 32
  • 18. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 18 / 32
  • 19. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% / Rappel = 9 50 = 18% 19 / 32
  • 20. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 20 / 32
  • 21. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie corpus Cirad (∼15 Mo) corpus TETIS (∼500 Ko) Merci à la Délégation à l’Information Scientifique Technique du Cirad 21 / 32
  • 22. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (1) Méthode Étape 1 : Extraction des candidats (méthode par patron) Étape 2 : Filtrage des candidats (méthode statistique) Mesure Web (fouille du Web) : WebDice(acro, def ) = 2×hits(acro,def ) hits(acro)+hits(def ) Exemple : WebDice(BSV , Banana streak virus) = 2×hits(”BSV ” AND ”Banana streak virus”) hits(”BSV ”)+hits(”Banana streak virus”) 22 / 32
  • 23. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (2) Résultats (données Cirad) : Acronym Possible definition WebDice ATPSM Agricultural Trade Policy Simulation Model 1.3014 TYLCV Tomato yellow leaf curl virus 0.7167 NRPS NonRibosomal Peptide Synthetase 0.4423 CIAT Centro international de agricultura tropical 0.1408 ACMV African cassava mosaic virus 0.0970 CSSV Cacao swollen shoot virus 0.0245 VLE Virtual Laboratory Environment 0.0222 CLF Corynespora Leaf Fall 0.0208 BSV Banana streak virus 0.0053 BMR Bois Massif Reconstitué 0.0046 ER Ehrlichia ruminantium 0.0004 BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001 ASA Articulation du Semi-aride 0 MAE Mesures agrienvironnementales 0 [Roche, ISA workshop’2014] 23 / 32
  • 24. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’Entités Spatiales (ES) dans les textes Utilisation de patrons d’extraction pour identifier des indicateurs spatiaux (orientation, distance, adjacence, inclusion, figure géométrique) des Entités Spatiales Absolues et Relatives [Kergosien et al., IJGIS’2014] 24 / 32
  • 25. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (1) Travaux menés avec Sophie Fortuno, (Cirad, TETIS) Méthode Étape 1 : Extraction des candidats termes (méthodes linguistiques + statistiques) Exemple : "soft contact" vs. "soft contact lens" Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes + des ressources comme Agrovoc) 25 / 32
  • 26. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (2) – Étape 1 [Lossio et al., IJKDB’2014] 26 / 32
  • 27. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Étape 2 + prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO – Food and Agriculture Organization) 27 / 32
  • 28. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Résultats quantitatifs [stage étudiants en informatique (Master IPS)] Corpus Cirad : 28% des termes simples / 12% des termes composés de BioTex sont présents dans Agrovoc Corpus TETIS : 25% des termes simples / 1% des termes composés de BioTex sont présents dans Agrovoc Résultats qualitatifs [stage étudiante "Ressources documentaires et bases de données"] Définition de critères de pertinence liés à l’indexation : sélectivité, objectivité, cohérence, indépendance contextuelle 28 / 32
  • 29. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Exemples de termes (en français) : développement durable, sécurité alimentaire, croissance démographique, développement rural, aménagement du territoire, gouvernance territoriale, etc. Publication en Open Data (CKAN – Comprehensive Knowledge Archive Network) : Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3) publications Cirad associées (numéros) 29 / 32
  • 30. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 30 / 32
  • 31. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Veille d’épidémiologie animale : Comment détecter des signaux faibles dans la masse de données ? Croisement des publications avec d’autres types de données (dépêches, presse, tweets, etc.) 31 / 32
  • 32. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Remerciements Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio Lossio (LIRMM) Les documentalistes : Marie-Claude Deboin (Cirad), Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad), Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea) Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS - UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir 32 / 32