Slides utilisés pour la présentation des nouveautés de HAL. 20 septembre 2017 : Nouvelle interface de dépôt, API affiliation, Affichage de la littérature citée et Portail data.archives-ouvertes.fr (Triple store)
2. Plan
• Nouvelle interface de dépôt
• API d’affiliation
• Littérature citée dans les documents
• Le portail data.archives-ouvertes.fr
• Autres nouveautés
4. Les objectifs
• Plusieurs constats :
• 1 seul fichier pour 467 000 sur 555 000 depôt avec fichiers (~85%)
• 42 000 avec 2 fichiers (~8%)
• Peu de métadonnées remplies
• Faciliter la procédure de dépôt par les chercheurs
+ rapide (moins de clics)
+ ergonomique / visuellement épuré
• Conserver la qualité des métadonnées
• Conserver une familiarité avec l’interface existante
5. Les principes de l’interface
• 1 seule page dans laquelle on
navigue
• navigation + libre entre les étapes
• navigation + rapide
• Mise en avant de la récupération
automatique des métadonnées
• à partir du PDF
• à partir d’un identifiant (DOI, arXiv,
etc)
8. Validité du dépôt
• Seules les métadonnées nécessaires à la citation sont
obligatoires
• Pour consulter la liste en fonction des types de document :
• https://doc.archives-ouvertes.fr/deposer/
• 1 affiliation obligatoire
9. Les nouvelles métadonnées
• A paraître : choix d’une date de publication OU a paraître
Article dans une revue, Ouvrage, Chapitre d’Ouvrage, Direction
d’Ouvrage
• Type de la publication (Article de blog, Notice de dictionnaire,
etc)
Autre Publication
12. Système de notifications
• Une notification est
envoyée à tous les
co-auteurs, référents
structure et
administrateurs de
portail identifiés sauf
s’ils sont déposant
de l’article ou qu’ils
ont choisi de ne pas
les recevoir.
16. Pourquoi une API affiliation ?
• Améliorer la détection des auteurs/structures
• Éviter la création de doublons
• Simplifier le dépôt
• Trouver la meilleure forme auteur
• Trouver la meilleure affiliation
17. Algorithme
• Récupération du développement Laurence Farhi (DSI-INRIA)
pour Bib2HAL / X2HAL
• Adaptation dans le contexte de HAL
• Code ré-intégré dans HAL sous forme d’API publique
19. Paramètres de l’API
En entrée :
• Une forme Auteur (nom + prénom + email)
• Date de publication
• Une ou plusieurs affiliation(s) potentielle(s)
20. Cas 1 : pas d’affiliation
1. Recherche de documents dans HAL correspondant à la forme
auteur
2. Recherche dans la TEI des formes auteurs les plus probables
+ leurs affiliations correspondantes
21. Cas 2 : Avec affiliations
1. Recherche de documents dans HAL correspondant à la forme
auteur avec les mêmes affiliations
2. Si on trouve des documents correspondants, on cherche dans
la TEI l'auteur avec la bonne affiliation
3. Sinon, si pas de document trouvé on cherche l’affiliation toute
seule
29. Objectif
• Mise à disposition de la littérature citée présente dans les
fichiers PDF déposés dans HAL.
• Faciliter l'accès au fulltext des documents cités
• Utilisation de GROBID (GeneRation Of BIbliographic Data)
https://github.com/kermitt2/grobid
• Traitement effectué sur les 537 000 PDF
35. RDF - Resource Description Framework
• Langage de base du Web Sémantique
• Standard développé par le W3C https://www.w3.org/RDF/
• Modèle de graphe destiné à décrire de façon formelle les
ressources Web et leurs métadonnées, de façon à permettre le
traitement automatique de ces descriptions
• Un document structuré en RDF est un ensemble de triplets
36. Triplet RDF
• Unité de données la plus petite contenue dans un graphe RDF
• Permet de décrire un objet, document
Sujet, Prédicat, Objet
• Sujet : ressource à décrire
• Prédicat : type de propriété, relation
• Objet : valeur de la propriété
37. Triplet RDF - exemples
Sujet, Prédicat, Objet
• Le document hal-00000001v2 est de type article
• Le document hal-00000001v2 a comme titre « Do we really
understand quantum mechanics? »
• Le document hal-00000001v2 cite le document hal-00296897
41. Le contenu du Triplestore
• Un graphe par référentiel d’AURéHAL
• Auteurs : https://data.archives-ouvertes.fr/author
• Structures : https://data.archives-ouvertes.fr/structure
• Types de documents : https://data.archives-ouvertes.fr/doctype
• Disciplines scientifiques : https://data.archives-ouvertes.fr/subject
• Revues : https://data.archives-ouvertes.fr/revue
• Projets ANR : https://data.archives-ouvertes.fr/anrProject
• Projets européens : https://data.archives-ouvertes.fr/europeanProject
• Un graphe pour les documents de HAL
• https://data.archives-ouvertes.fr/document
42. Les Auteurs
Namespaces
foaf: <http://xmlns.com/foaf/0.1/>
owl: <http://www.w3.org/2002/07/owl#>
skos: <http://www.w3.org/2004/02/skos/core#>
ore: <http://www.openarchives.org/ore/terms/>
ore:isAggregatedBy
owl:sameAs
foaf:interest
foaf:name
foaf:firstName
Nom
xsd:string
Nom complet
xsd:string
Prénom
xsd:string
foaf:familyName
Adresse mail
xsd:string
foaf:mbox_shaIsum
Mots clés
xsd:string
foaf:topic_interest
foaf:member
Site perso
xsd:string
foaf:homepage
Auteur
foaf:Person
Idhal
URI
ORCID,
IDREF,
…
URI
Domaine
scientifique
URI
Etab.
Appartenance
URI
50. Interrogation du Triplestore
• Via le langage SPARQL
• Via le SPARQL endpoint
• https://data.archives-ouvertes.fr/sparql
• Synchronisation quotidienne du triplestore avec HAL / AuréHAL
• Création mensuelle d’une archive ZIP téléchargeable des données
RDF
prefix foaf: <http://xmlns.com/foaf/0.1/> select
distinct ?name
where {
?s a foaf:Person .
?s foaf:topic_interest "TEI" .
?s foaf:name ?name
}
54. Evolutions du dépôt SWORD
Header onBehalfOf
• Plus de limitation au login HAL.
• Accepte les différents identifants HAL ainsi que les identifiants
externes
• Documentation : https://api.archives-ouvertes.fr/docs/sword
login|marvin
uid|42
idhal|arthur-dent
ORCID|0000-0002-9079-593X
55. Evolutions du dépôt SWORD
Ajout du texte intégral sur une notice
• Permet de compléter une notice HAL avec le texte intégral
• Dépôt classique SWORD avec le texte intégral (URL ou fichier
associé)
• Doublon non détecté : dépôt normal
• Doublon detecté :
• ajout du texte intégral
• conservation des métadonnées de la notice
• ajout des métadonnées supplémentaires
58. Dépôt de Logiciels
• Nouveau type de document accepté dans HAL
• Présent dans un premier temps sur le portail HAL-INRIA puis
déployé sur HAL (et autres portails s’ils le souhaitent)
• Collaboration avec Software Heritage
• Projet, à l'initiative d'Inria, qui a pour objectif de collecter, organiser,
préserver, et rendre accessible, à tous, le code source de tous les
logiciels disponibles.
• Transfert possible des logiciels sur Software Heritage