SlideShare ist ein Scribd-Unternehmen logo
1 von 15
L’acquisition des données est notre métier
Journées Istex – 14 et 15 mars 2018 – Paris
1
18 bouquets de revues
13 bouquets de ebooks
Du consortium à la licence type
4
http://bbf.enssib.fr/consulter/bbf-2013-01-0066-015
Du choix à l’accès
Etapes
Identification du
besoin
Négociation
Vérifications
Traitements
Chargements
5
Ressource
Editeurs
COUPERIN
----
ABES
---
INIST
Chercheurs
Et en plus
Signalements Sudoc
Développements Istex
Evaluation des produits et des offres
 Le traitement des métadonnées
 Pour une offre commerciale donnée de e-books
– Combien sont dans le Sudoc ?
– Combien ont une édition imprimée dans le Sudoc ?
– Combien d’établissements exemplarisés sur chaque
version ?
 Cela permet d’évaluer l’offre à sa juste valeur
 Et de l’améliorer
Contrôle rigoureux du contenu
 Le traitement des métadonnées
 Pour une offre commerciale données de revues
–Métarevues pour comparer la liste initiale fournie
avec la réalité de la vie des revues
 Cela permet
– de vérifier la qualité de l’offre
– et de la renégocier
 Et de réparer la suite des opérations de signalement
Titre ISSN Couverture
Life sciences 0024-3205 1962-2001
Titre
ISSN Date
début
Date
fin
Media PPN
Life sciences (1962)
0161-
5564
1962 1970 papier 036937843
Life sciences. Part 2.
Biochemistry,
general & molecular
biology
0300-
9637
1970 1973 papier 037256289
Life sciences. Part 1.
Physiology and
pharmacology
0300-
9653
1970 1973 papier 037256297
Life sciences (1973)
0024-
3205
1973 papier 038745062
Life sciences
(Online)
1879-
0631 200X élec 073281212
Métarevues
436
436
452
Exemple d’une revue
Scan des millions de fichiers livrés
 reconstituer les périodes couvertes
 comparer la livraison à la liste contractuelle
 réclamer (pendant les délais contractuels)
Tit
re
P-
ISSN
E-
ISSN
Début
(licenc
e)
Fin
(licen
ce)
P-
PPN
E-
PP
N
1er
Vol.
1er
Num.
Dern.
Vol.
Der.
Nu
m.
Années
livrées
Vol.
livrés
Années
manqua
ntes
Volumes
manqua
nts
1
2 1920 2010 1 1 110 10
1920-
1925
1927-
2010
1-6
8-110
1926 7
…
Agréger + Analyser + Comparer
Article
Art
icle
Arti
cle
Réclamer !
Garantir la validité de l’achat
 Enrichissements pour chaque périodique
- La zone 207 (numérotation)
- L’URL d’accès en 859
- Un état de collection détaillé en 955
- La zone E856 (format, URL, note publique, code bouquet)
 Et pour chaque e-book
- Création de toutes les notices dans le Sudoc
- A partir des données XML fournies, testées et validées
- Dédoublonnage avec les notices Sudoc existantes
- Ajout de données venant d’autres sources
Améliorer le signalement
________
________
________
XML
________
________
________
________
________
________
________
________
________
________
________
________
MARC
SUDOC
RDF
MARC
XML
ISO
2709
RDF
2
MARC
ISO
2709
XML
2
RDF
IMPORTS
Enrichissements
XSLT XSLT Java
Contrôles, enrichissements et import
Parseur
StAX
Corrections
______
___
______
___
______
___
XML
Originaux
______
___
______
___
______
___
XML
Valides et
bien formés
_______
__
_______
__
_______
__
XML
Exploitables
Requêtes
SQL
Corrections
Identifiants
Format(s)
… issus des métadonnées
xml
… récupérés via sources
extérieures
Indice
DEWEY
ID auteur
… générés par procédure
d’import
Zone de
gestion
Divers
La notice finale enrichie
Exposition des données
 Les métadonnées d’ISTEX sont
– Dans ISTEX
– Dans le SUDOC
• Disponibles par lots, par web services, à l’unité
• Listes de ppn papier/elec
– Dans BACON --> Fichiers KBART
– Dans le web de données --> En RDF
 Il essentiel de lier ces données à des référentiels
– Identifiants auteurs
– Vocabulaires contrôlés
– Classifications
– …
Et maintenant
 ISTEX = 21 millions de documents
 Achetés pour permettre l’accès et l’exploitation
– Sous forme de métadonnées pour le
signalement local ou national
– En pdf pour l’accès direct
– Dans divers formats pour le TDM
14
Et maintenant
 ISTEX = 21 millions de documents
 Achetés pour permettre l’accès et l’exploitation
– Sous forme de métadonnées pour le
signalement local ou national
– En pdf pour l’accès direct
– Dans divers formats pour le TDM
15

Weitere ähnliche Inhalte

Ähnlich wie L’acquisition des données est notre métier, journées ISTEX 2018

Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
Animer et exploiter son portail e sidoc version2 [enregistrement automatique]Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
sirelucile
 

Ähnlich wie L’acquisition des données est notre métier, journées ISTEX 2018 (20)

Journée X F T 16 03 10v2
Journée  X F T 16 03 10v2Journée  X F T 16 03 10v2
Journée X F T 16 03 10v2
 
Erms partagé
Erms partagéErms partagé
Erms partagé
 
Conversion de devises avec Power Query
Conversion de devises avec Power QueryConversion de devises avec Power Query
Conversion de devises avec Power Query
 
Comarch Online Distribution : le livre blanc pour optimiser ses réseaux de di...
Comarch Online Distribution : le livre blanc pour optimiser ses réseaux de di...Comarch Online Distribution : le livre blanc pour optimiser ses réseaux de di...
Comarch Online Distribution : le livre blanc pour optimiser ses réseaux de di...
 
Jabes 2010 - Session plénière "Actualités et projets de l’Abes"
Jabes 2010 - Session plénière "Actualités et projets de l’Abes"Jabes 2010 - Session plénière "Actualités et projets de l’Abes"
Jabes 2010 - Session plénière "Actualités et projets de l’Abes"
 
Présentation SEO et semantic web à la conférence SMX, SEO and semantic Web to...
Présentation SEO et semantic web à la conférence SMX, SEO and semantic Web to...Présentation SEO et semantic web à la conférence SMX, SEO and semantic Web to...
Présentation SEO et semantic web à la conférence SMX, SEO and semantic Web to...
 
I-COM Software: Solutions e-commerce B2B pour les revendeurs IT
I-COM Software: Solutions e-commerce B2B pour les revendeurs ITI-COM Software: Solutions e-commerce B2B pour les revendeurs IT
I-COM Software: Solutions e-commerce B2B pour les revendeurs IT
 
Web sémantique et Ecommerce
Web sémantique et EcommerceWeb sémantique et Ecommerce
Web sémantique et Ecommerce
 
Tp talend BI
Tp talend BITp talend BI
Tp talend BI
 
Salon Réunir / Conférence Recherche d'information et veille sur Internet
Salon Réunir / Conférence Recherche d'information et veille sur InternetSalon Réunir / Conférence Recherche d'information et veille sur Internet
Salon Réunir / Conférence Recherche d'information et veille sur Internet
 
introduction bigdata
introduction bigdataintroduction bigdata
introduction bigdata
 
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
 
Comptage licences Business Objects
Comptage licences Business ObjectsComptage licences Business Objects
Comptage licences Business Objects
 
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
 
JABES 2018 - Focus sur l'exposition des données
JABES 2018 - Focus sur l'exposition des donnéesJABES 2018 - Focus sur l'exposition des données
JABES 2018 - Focus sur l'exposition des données
 
Boostez vos ventes sur les marketplaces et les comparateurs de prix
Boostez vos ventes sur les marketplaces et les comparateurs de prixBoostez vos ventes sur les marketplaces et les comparateurs de prix
Boostez vos ventes sur les marketplaces et les comparateurs de prix
 
Moteur de rapprochement de factures avec des outils Open Source
Moteur de rapprochement de factures avec des outils Open SourceMoteur de rapprochement de factures avec des outils Open Source
Moteur de rapprochement de factures avec des outils Open Source
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage
 
Atelier Koha : administrateur
Atelier Koha : administrateurAtelier Koha : administrateur
Atelier Koha : administrateur
 
Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
Animer et exploiter son portail e sidoc version2 [enregistrement automatique]Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
Animer et exploiter son portail e sidoc version2 [enregistrement automatique]
 

Mehr von ABES

Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
ABES
 

Mehr von ABES (20)

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibre
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'Abes
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
 

Kürzlich hochgeladen

Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 

Kürzlich hochgeladen (19)

CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdf
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 

L’acquisition des données est notre métier, journées ISTEX 2018

  • 1. L’acquisition des données est notre métier Journées Istex – 14 et 15 mars 2018 – Paris 1
  • 2. 18 bouquets de revues
  • 3. 13 bouquets de ebooks
  • 4. Du consortium à la licence type 4 http://bbf.enssib.fr/consulter/bbf-2013-01-0066-015
  • 5. Du choix à l’accès Etapes Identification du besoin Négociation Vérifications Traitements Chargements 5 Ressource Editeurs COUPERIN ---- ABES --- INIST Chercheurs Et en plus Signalements Sudoc Développements Istex
  • 6. Evaluation des produits et des offres  Le traitement des métadonnées  Pour une offre commerciale donnée de e-books – Combien sont dans le Sudoc ? – Combien ont une édition imprimée dans le Sudoc ? – Combien d’établissements exemplarisés sur chaque version ?  Cela permet d’évaluer l’offre à sa juste valeur  Et de l’améliorer
  • 7. Contrôle rigoureux du contenu  Le traitement des métadonnées  Pour une offre commerciale données de revues –Métarevues pour comparer la liste initiale fournie avec la réalité de la vie des revues  Cela permet – de vérifier la qualité de l’offre – et de la renégocier  Et de réparer la suite des opérations de signalement
  • 8. Titre ISSN Couverture Life sciences 0024-3205 1962-2001 Titre ISSN Date début Date fin Media PPN Life sciences (1962) 0161- 5564 1962 1970 papier 036937843 Life sciences. Part 2. Biochemistry, general & molecular biology 0300- 9637 1970 1973 papier 037256289 Life sciences. Part 1. Physiology and pharmacology 0300- 9653 1970 1973 papier 037256297 Life sciences (1973) 0024- 3205 1973 papier 038745062 Life sciences (Online) 1879- 0631 200X élec 073281212 Métarevues 436 436 452 Exemple d’une revue
  • 9. Scan des millions de fichiers livrés  reconstituer les périodes couvertes  comparer la livraison à la liste contractuelle  réclamer (pendant les délais contractuels) Tit re P- ISSN E- ISSN Début (licenc e) Fin (licen ce) P- PPN E- PP N 1er Vol. 1er Num. Dern. Vol. Der. Nu m. Années livrées Vol. livrés Années manqua ntes Volumes manqua nts 1 2 1920 2010 1 1 110 10 1920- 1925 1927- 2010 1-6 8-110 1926 7 … Agréger + Analyser + Comparer Article Art icle Arti cle Réclamer ! Garantir la validité de l’achat
  • 10.  Enrichissements pour chaque périodique - La zone 207 (numérotation) - L’URL d’accès en 859 - Un état de collection détaillé en 955 - La zone E856 (format, URL, note publique, code bouquet)  Et pour chaque e-book - Création de toutes les notices dans le Sudoc - A partir des données XML fournies, testées et validées - Dédoublonnage avec les notices Sudoc existantes - Ajout de données venant d’autres sources Améliorer le signalement
  • 11. ________ ________ ________ XML ________ ________ ________ ________ ________ ________ ________ ________ ________ ________ ________ ________ MARC SUDOC RDF MARC XML ISO 2709 RDF 2 MARC ISO 2709 XML 2 RDF IMPORTS Enrichissements XSLT XSLT Java Contrôles, enrichissements et import Parseur StAX Corrections ______ ___ ______ ___ ______ ___ XML Originaux ______ ___ ______ ___ ______ ___ XML Valides et bien formés _______ __ _______ __ _______ __ XML Exploitables Requêtes SQL Corrections
  • 12. Identifiants Format(s) … issus des métadonnées xml … récupérés via sources extérieures Indice DEWEY ID auteur … générés par procédure d’import Zone de gestion Divers La notice finale enrichie
  • 13. Exposition des données  Les métadonnées d’ISTEX sont – Dans ISTEX – Dans le SUDOC • Disponibles par lots, par web services, à l’unité • Listes de ppn papier/elec – Dans BACON --> Fichiers KBART – Dans le web de données --> En RDF  Il essentiel de lier ces données à des référentiels – Identifiants auteurs – Vocabulaires contrôlés – Classifications – …
  • 14. Et maintenant  ISTEX = 21 millions de documents  Achetés pour permettre l’accès et l’exploitation – Sous forme de métadonnées pour le signalement local ou national – En pdf pour l’accès direct – Dans divers formats pour le TDM 14
  • 15. Et maintenant  ISTEX = 21 millions de documents  Achetés pour permettre l’accès et l’exploitation – Sous forme de métadonnées pour le signalement local ou national – En pdf pour l’accès direct – Dans divers formats pour le TDM 15

Hinweis der Redaktion

  1. Avec l’aide et les contributions de Delphine Rémy Julie Lempereur Yann Nicolas
  2. Etat en janvier 2018. D’autres ressources sont encore en négociation
  3. Etat en janvier 2018
  4. Depuis 2012 nous avons appris beaucoup de choses en matière d’acquisition des ressources, en insistant sur l’acquisition des données
  5. C’est la collaboration entre Couperin, l’Abes et l’Inist qui permet de traiter comme il le faut les données acquises et de fournir le service aux chercheurs
  6. L’ABES a fourni à Couperin des indicateurs chiffrés pour aider à évaluer l’opportunité de l’achat d’un corpus d’ebooks Mesurer la présence d’un corpus dans le Sudoc est un indicateur complémentaire à d’autres indicateurs, au premier rang desquels l’enquête sur les besoins des chercheurs. La « présence » d’un corpus d’ebooks dans le Sudoc, se mesure surtout par le nombre d’établissements localisés (ce qui suppose que les notices soient dans le Sudoc : on sait que tout ce qui est acquis sous forme électronique n’est pas catalogué à ce jour).
  7. Or on s’aperçoit, en examinant de près les listes contractuelles, que les éditeurs ont tendance à simplifier, en ne retenant qu’un seul titre et un seul identifiant pour X titres et X identifiants dans le SUDOC et dans le registre. Afin de rétablir un découpage correct, qui « colle » aux données ISSN, et donc de repérer précisément la notice sous laquelle il faut créer l’exemplaire ABES-Licence Nationale, l’ABES utilise le programme Métarevues.
  8. Si le traitement des périodiques dans le SUDOC est intimement lié aux données ISSN, les éditeurs, eux, prennent quelques libertés avec les règles très strictes du registre. On sait que les périodiques ont une histoire bibliographique complexe, faite de changements de titre, fusions, scissions, … METAREVUES est capable, à partir d’un ISSN, de lister tous les titres liés à celui-ci par les zones 43X, 44X et 452. Ex. pour ce titre chez Elsevier : ISSN d’entrée = l’ISSN fourni par l’éditeur Dans le Sudoc, ce titre est lié à 3 autres titres papier, qui ont tous un ou plusieurs lien(s) 43X et 44X (ici : 436 = fusion de … et de …), et les dates de couverture divergent : on a donc affaire à une « métarevue », là où l’éditeur considère qu’il s’agit d’une revue simple, publiée à partir de 1962. + lié à une notice de périodique électronique par une zone 452 = a pour autre édition sur un support différent) *métarevue = ensemble des titres qui constitue une revue depuis sa naissance. Pour faciliter le repérage, le programme fournit également le PPN correspondant à chaque titre.
  9. Développement spécifique d’un programme pour comparer la livraison effective à la livraison attendue. Ce qui est acheté et dc attendu, ce sont des tranches annuelles de périodiques. Ce qui est concrètement livré, ce sont des millions d’articles individuels. Notre programme doit donc d’abord rendre commensurable ce qui est attendu et ce qui est livré. Ce qui revient à agréger et analyser la masse de métadonnées attachés à chaque article, pour représenter cette masse sous la forme de tranche d’années et de listes de volumes (voire de fascicule). Pour chaque périodique, on peut alors comparer ces tranches d’années calculées à partir des métadonnées d’article aux tranches prévues par le contrat… pourvu qu’on ait rétabli une cohérence entre les ISSN utilisés pour désigner une métarevue du côté des articles et du côté de la liste contractuelle. En parallèle, la liste des volumes livrés permet également d’identifier des lacunes dans la livraison. Plus précisément, une lacune annuelle sans lacune de volume correspondante révèle une fausse alerte : l’année manque car la publication a été interrompue ; mais la numérotation du périodique a continué sans interruption. Enfin, autre écueil : certaines lacunes apparentes correspondent en fait à la livraison effective de fichiers inexploitables : le PDF sera lisible, mais personne ne tombera dessus, faute de métadonnées exploitables.
  10. Après le travail d’identification, on va appliquer différents traitements, qui vont permettre d’augmenter le degré de précision des données bibliographiques et des données d’exemplaire, grâce à des sources extérieures au SUDOC. Les enrichissements pour une notice de périodique sont peu nombreux, mais revêtent une importance capitale puisqu’ils concernent les dates de couverture (zone 207) et l’accès à la ressource (zone 859) Le renseignement de la zone 207 est crucial pour les périodiques électroniques : la date de publication « officielle » d’un périodique électronique étant sa date de mise en ligne, seule la zone 207 permet d’appréhender la couverture réelle d’un titre. Au niveau de l’exemplaire, c’est évidemment l’état de collection qui va retenir l’attention : grâce aux informations glanées dans les métadonnées XML, l’ABES va proposer un état de collection détaillé.
  11. Pour que les données xml éditeur soient exploitables, il faut que les fichiers livrés par les éditeurs soient valides et bien formés, et que les données qu’ils contiennent soient correctes. Par ex., un ISBN dont la forme ne serait pas correcte empêche la validation de la notice dans le Sudoc : « les ISBN dont la structure - nombre de caractères, division en segments - ou la clé de contrôle est non conforme » (GM) » (contrôle de validation par le système) => Corrections dans les fichiers XML Ex. dans corpus Taylor & Francis : Cette balise : <isbn pub-type="ebk">isbn : 978-0-203-00512-5 (ebk)</isbn> A été corrigée directement dans le fichier xml : <isbn pub-type="ebk">978-0-203-00512-5</isbn> Streaming Api for XML Pour être enrichies et devenir comestibles pour le SUDOC, les données XML vont être converties dans divers formats, principalement grâce à XSLT eXtensible Stylesheet Language Transformations
  12. Enrichissements : Grâce à des sources extérieures Grâce aux informations trouvées/présentes dans les fichiers xml éditeur < fichiers xml (données présentes) - Les différents formats (PDF, EPUB, …) Identifiants : ISBN pour chaque format DOI (passerelle entre données HUB et Sudoc) Pagination de l’édition imprimée correspondante Informations récupérées grâce aux autres sources : identifiants auteurs (<qualinca) Indice Dewey (<OCLC Classify web service d’OCLC) Zone(s) de gestion : générée(s) par la procédure d’import 035 : che sou RSC_EBOOKS_LN?
  13. L’ensemble des métadonnées vérifiées, traitées, enrichies sont exposées dans divers univers pour servir les différents besoins des communautés.
  14. Des traitements et des enrichissements sont réalisés par les collègues de l’INIST sur le texte des documents. ISTEX existe. C’est une plateforme unique par son contenu, par ses données et métadonnées riches, par ses services. ISTEX évoluera encore : À terme nous y intègrerons des ressources en open accesss Nous pensons y charger les thèses françaises Si ISTEX 2 voit le jour des ressources supplémentaires seront acquises
  15. Vous pouvez en découvrir toutes les possibilités