SlideShare ist ein Scribd-Unternehmen logo
1 von 52
Aligner vos données avec
Wikidata grâce à l’outil Open
Refine
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net
Présentation de l’outil
Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... »
• Outil créé en par David Huynh et Stefano Mazzochi
au sein de la société Metaweb
• S’est appelé « Griworks » puis « Google Refine » et
enfin « Open Refine »
• Depuis 2012 dans la communauté
• La V3.0 est sortie officiellement le 16 septembre
2018 après plusieurs années sans sortie
• Très apprécié dans le monde des bibliothèques
• Open source
Pour télécharger l’outil  http://openrefine.org/download.html
Les serveurs de réconciliation Open Refine
•Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine-
wikidata/fr/api
•ORCID http://refine.codefork.com/reconcile/orcid et
http://refine.codefork.com/reconcile/orcid/smartnames
• VIAF http://refine.codefork.com/reconcile/viaf
Outil de réconciliation
Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents
dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF
La requête SPARQL : https://data.archives-ouvertes.fr/sparql
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf
<https://hal.inria.fr/INRIA>; dcterms:creator ?creator.
?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name.
OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')}
}
GROUP BY ?person ?name ?same
ORDER BY DESC(?nbs)
LIMIT 300
https://bit.ly/2C3APY2
Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier-
une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
Aller sur l’IHM du sparql endpoint de HAL
https://data.archives-ouvertes.fr/sparql
Saisir la requête qui permet de retrouver les
personnes qui vous intéressent
Récupérer l’URL de la requête dans la
page de réponse
Aller sur le site https://meyerweb.com/eric/tools/dencoder/
pour encoder la requête conformément aux URLs
Cliquer sur Encode
Récupérer la requête encodé
conformément aux URLs
Modifier le paramètre query avec la chaîne
encodée et le paramètre format avec la valeur
« csv »
Lancer Open Refine et cliquer sur
« Web address (URLs) »
Copier l’URL modifiée de la requête et
cliquer sur « Next »
Après récupération des données, vous
obtenez cette interface
Cliquer ici pour
modifier l’encodage
des caractères
Choisir l’encodage « UTF-8 »
Avec le bon encodage…
Modifier le nom du projet et cliquer
sur « Create project »
Vous pouvez augmenter le nombre de
lignes affichées
Modifier un champ texte en nombre…
…pour permettre de faire une facette
de nombres par exemple
Pour transformer une chaîne de
caractères, cliquer sur « Transform »
pour afficher la boîte de manipulation
des champs
et par exemple ici supprimer une
partie de la chaîne de caractère
Et voilà le résultat
Vous pouvez renommer une colonne
Et voilà le résultat
Pour réconcilier/aligner vos données avec
Wikidata, Orcid, VIAF…
L’interface de réconciliation s’affiche, vous
pouvez ajouter un service de réconciliation
par exemple, la réconciliation avec des entrées
Wikidata par leur étiquette en français
Vous cliquez sur le service ajouté
Vous pouvez préciser une propriété
pour faciliter l’alignement
Une auto-complétion permet
de choisir sur quelle propriété
aligner les valeurs de la colonne
Quand tout est prêt, vous pouvez cliquer sur le
bouton « Start Reconciling »
Et le processus de réconciliation se
lance en tâche de fond…
Lorsque le processus est terminé, les entrées alignées
ont un lien et les autres ont des propositions
Pour choisir une proposition, il suffit
de cliquer sur la coche
En cliquant sur le
lien, vous pouvez
aller sur la pageEn cliquant sur la coche, vous
sélectionnez l’entrée
Et voilà le résultat
Pour récupérer l’identifiant, il faut
ajouter une colonne
Il faut entrer le nom de la nouvelle colonne et indiquer
dans l’expression « cell.recon.match.id »
Et voilà le résultat
Si on veut à présent aligner avec
ORCID…
Sélectionner les entrées qui n’ont pas déjà
un ORCID, en créant une facette
En cliquant sur true, on sélectionne les
lignes sans entrée ORCID
Il faut d’abord créer une autre colonne
pour lancer la réconciliation
On donne un nouveau nom à la
colonne et on clique sur « OK »
On relance l’interface de réconciliation sur
la nouvelle colonne
On ajoute le service de réconciliation à l’adresse «
http://refine.codefork.com/reconcile/orcid » puis on
clique sur « Start Reconciling »
Le processus de réconciliation se lance
Et lorsqu’il aboutit, on retrouve la
même interface que pour wikidata
Il est possible de créer de nouvelles colonnes
avec des données provenant de Wikidata
Une boîte de dialogue s’ouvre pour pouvoir
choisir la propriété à récupérer
En cliquant sur une propriété, vous
pouvez voir une prévisualisation
puis le processus de récupération se
lance
Et voilà le résultat après avoir filtré les
entrées qui avaient une réponse
Une fois le travail terminé, vous
pouvez exporter le résultat

Weitere ähnliche Inhalte

Was ist angesagt?

HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...Simplilearn
 
Metadata an overview
Metadata an overviewMetadata an overview
Metadata an overviewrobin fay
 
Recherche d'informations sur internet : méthodologie et outils disponibles
Recherche d'informations sur internet : méthodologie et outils disponiblesRecherche d'informations sur internet : méthodologie et outils disponibles
Recherche d'informations sur internet : méthodologie et outils disponiblesURFIST de Paris
 
DSpace-CRIS technical level introduction
DSpace-CRIS technical level introductionDSpace-CRIS technical level introduction
DSpace-CRIS technical level introduction4Science
 
Indexing Techniques: Their Usage in Search Engines for Information Retrieval
Indexing Techniques: Their Usage in Search Engines for Information RetrievalIndexing Techniques: Their Usage in Search Engines for Information Retrieval
Indexing Techniques: Their Usage in Search Engines for Information RetrievalVikas Bhushan
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introductionmattcasters
 
Restitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeRestitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeJulien Sicot
 
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013Luc Bellier
 
Usage des API de HAL
Usage des API de HALUsage des API de HAL
Usage des API de HALOAccsd
 
Administrer un portail et gérer une collection dans HAL
Administrer un portail et gérer une collection dans HALAdministrer un portail et gérer une collection dans HAL
Administrer un portail et gérer une collection dans HALFrançoise Gouzi
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQLBorderCloud
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistiqueDanis Habib
 
Introduction to Apache Hive
Introduction to Apache HiveIntroduction to Apache Hive
Introduction to Apache HiveAvkash Chauhan
 
Data Lake Overview
Data Lake OverviewData Lake Overview
Data Lake OverviewJames Serra
 
From Data Lakes to the Data Fabric: Our Vision for Digital Strategy
From Data Lakes to the Data Fabric: Our Vision for Digital StrategyFrom Data Lakes to the Data Fabric: Our Vision for Digital Strategy
From Data Lakes to the Data Fabric: Our Vision for Digital StrategyCambridge Semantics
 

Was ist angesagt? (20)

Apache hive
Apache hiveApache hive
Apache hive
 
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
 
Metadata an overview
Metadata an overviewMetadata an overview
Metadata an overview
 
Recherche d'informations sur internet : méthodologie et outils disponibles
Recherche d'informations sur internet : méthodologie et outils disponiblesRecherche d'informations sur internet : méthodologie et outils disponibles
Recherche d'informations sur internet : méthodologie et outils disponibles
 
DSpace-CRIS technical level introduction
DSpace-CRIS technical level introductionDSpace-CRIS technical level introduction
DSpace-CRIS technical level introduction
 
Indexing Techniques: Their Usage in Search Engines for Information Retrieval
Indexing Techniques: Their Usage in Search Engines for Information RetrievalIndexing Techniques: Their Usage in Search Engines for Information Retrieval
Indexing Techniques: Their Usage in Search Engines for Information Retrieval
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introduction
 
Restitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeRestitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliotheque
 
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
 
Usage des API de HAL
Usage des API de HALUsage des API de HAL
Usage des API de HAL
 
Administrer un portail et gérer une collection dans HAL
Administrer un portail et gérer une collection dans HALAdministrer un portail et gérer une collection dans HAL
Administrer un portail et gérer une collection dans HAL
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQL
 
adb.pdf
adb.pdfadb.pdf
adb.pdf
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistique
 
Introduction to Apache Hive
Introduction to Apache HiveIntroduction to Apache Hive
Introduction to Apache Hive
 
Data Lake Overview
Data Lake OverviewData Lake Overview
Data Lake Overview
 
Sap bw4 hana
Sap bw4 hanaSap bw4 hana
Sap bw4 hana
 
Key-Value NoSQL Database
Key-Value NoSQL DatabaseKey-Value NoSQL Database
Key-Value NoSQL Database
 
From Data Lakes to the Data Fabric: Our Vision for Digital Strategy
From Data Lakes to the Data Fabric: Our Vision for Digital StrategyFrom Data Lakes to the Data Fabric: Our Vision for Digital Strategy
From Data Lakes to the Data Fabric: Our Vision for Digital Strategy
 
Sqoop
SqoopSqoop
Sqoop
 

Ähnlich wie Aligner vos données avec Wikidata grâce à l'outil Open Refine

aligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRefaligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRefLuc Bellier
 
_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptxlamourfrantz
 
C2i Web
C2i WebC2i Web
C2i Webc2i
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Laurent Moccozet
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Laurent Moccozet
 
Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Laurent Moccozet
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplexTECOS
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Nazih Heni
 
Héberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudHéberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudNassim Bahri
 
Microsoft business-intelligence
Microsoft business-intelligenceMicrosoft business-intelligence
Microsoft business-intelligenceBENJID Mohamed
 
"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decisionNicolas Georgeault
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web Romain Willmann
 
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...MongoDB
 
Access requete
Access requeteAccess requete
Access requetehassan1488
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_frenchSteph Cliche
 

Ähnlich wie Aligner vos données avec Wikidata grâce à l'outil Open Refine (20)

Tutoriel web service
Tutoriel  web serviceTutoriel  web service
Tutoriel web service
 
aligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRefaligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRef
 
Guidetalendd
GuidetalenddGuidetalendd
Guidetalendd
 
_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx
 
C2i Web
C2i WebC2i Web
C2i Web
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014
 
Présentation netvibes
Présentation netvibesPrésentation netvibes
Présentation netvibes
 
Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplex
 
Tp5 - WINDEV
Tp5 - WINDEVTp5 - WINDEV
Tp5 - WINDEV
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"
 
Héberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudHéberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloud
 
Microsoft business-intelligence
Microsoft business-intelligenceMicrosoft business-intelligence
Microsoft business-intelligence
 
Javascript
JavascriptJavascript
Javascript
 
"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
 
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
 
Access requete
Access requeteAccess requete
Access requete
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_french
 

Mehr von Gautier Poupeau

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Gautier Poupeau
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALGautier Poupeau
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information SystemGautier Poupeau
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...Gautier Poupeau
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontologyGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 

Mehr von Gautier Poupeau (17)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 

Aligner vos données avec Wikidata grâce à l'outil Open Refine

  • 1. Aligner vos données avec Wikidata grâce à l’outil Open Refine Gautier Poupeau gautier.poupeau@gmail.com @lespetitescases http://www.lespetitescases.net
  • 2. Présentation de l’outil Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... » • Outil créé en par David Huynh et Stefano Mazzochi au sein de la société Metaweb • S’est appelé « Griworks » puis « Google Refine » et enfin « Open Refine » • Depuis 2012 dans la communauté • La V3.0 est sortie officiellement le 16 septembre 2018 après plusieurs années sans sortie • Très apprécié dans le monde des bibliothèques • Open source Pour télécharger l’outil  http://openrefine.org/download.html
  • 3. Les serveurs de réconciliation Open Refine •Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine- wikidata/fr/api •ORCID http://refine.codefork.com/reconcile/orcid et http://refine.codefork.com/reconcile/orcid/smartnames • VIAF http://refine.codefork.com/reconcile/viaf Outil de réconciliation Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF La requête SPARQL : https://data.archives-ouvertes.fr/sparql PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf <https://hal.inria.fr/INRIA>; dcterms:creator ?creator. ?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name. OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')} } GROUP BY ?person ?name ?same ORDER BY DESC(?nbs) LIMIT 300 https://bit.ly/2C3APY2 Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier- une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
  • 4. Aller sur l’IHM du sparql endpoint de HAL https://data.archives-ouvertes.fr/sparql
  • 5. Saisir la requête qui permet de retrouver les personnes qui vous intéressent
  • 6. Récupérer l’URL de la requête dans la page de réponse
  • 7. Aller sur le site https://meyerweb.com/eric/tools/dencoder/ pour encoder la requête conformément aux URLs Cliquer sur Encode
  • 8. Récupérer la requête encodé conformément aux URLs
  • 9. Modifier le paramètre query avec la chaîne encodée et le paramètre format avec la valeur « csv »
  • 10. Lancer Open Refine et cliquer sur « Web address (URLs) »
  • 11. Copier l’URL modifiée de la requête et cliquer sur « Next »
  • 12. Après récupération des données, vous obtenez cette interface Cliquer ici pour modifier l’encodage des caractères
  • 14. Avec le bon encodage…
  • 15. Modifier le nom du projet et cliquer sur « Create project »
  • 16. Vous pouvez augmenter le nombre de lignes affichées
  • 17. Modifier un champ texte en nombre…
  • 18. …pour permettre de faire une facette de nombres par exemple
  • 19. Pour transformer une chaîne de caractères, cliquer sur « Transform »
  • 20. pour afficher la boîte de manipulation des champs
  • 21. et par exemple ici supprimer une partie de la chaîne de caractère
  • 22. Et voilà le résultat
  • 23. Vous pouvez renommer une colonne
  • 24. Et voilà le résultat
  • 25. Pour réconcilier/aligner vos données avec Wikidata, Orcid, VIAF…
  • 26. L’interface de réconciliation s’affiche, vous pouvez ajouter un service de réconciliation
  • 27. par exemple, la réconciliation avec des entrées Wikidata par leur étiquette en français
  • 28. Vous cliquez sur le service ajouté
  • 29. Vous pouvez préciser une propriété pour faciliter l’alignement Une auto-complétion permet de choisir sur quelle propriété aligner les valeurs de la colonne
  • 30. Quand tout est prêt, vous pouvez cliquer sur le bouton « Start Reconciling »
  • 31. Et le processus de réconciliation se lance en tâche de fond…
  • 32. Lorsque le processus est terminé, les entrées alignées ont un lien et les autres ont des propositions
  • 33. Pour choisir une proposition, il suffit de cliquer sur la coche En cliquant sur le lien, vous pouvez aller sur la pageEn cliquant sur la coche, vous sélectionnez l’entrée
  • 34. Et voilà le résultat
  • 35. Pour récupérer l’identifiant, il faut ajouter une colonne
  • 36. Il faut entrer le nom de la nouvelle colonne et indiquer dans l’expression « cell.recon.match.id »
  • 37. Et voilà le résultat
  • 38. Si on veut à présent aligner avec ORCID…
  • 39. Sélectionner les entrées qui n’ont pas déjà un ORCID, en créant une facette
  • 40. En cliquant sur true, on sélectionne les lignes sans entrée ORCID
  • 41. Il faut d’abord créer une autre colonne pour lancer la réconciliation
  • 42. On donne un nouveau nom à la colonne et on clique sur « OK »
  • 43. On relance l’interface de réconciliation sur la nouvelle colonne
  • 44. On ajoute le service de réconciliation à l’adresse « http://refine.codefork.com/reconcile/orcid » puis on clique sur « Start Reconciling »
  • 45. Le processus de réconciliation se lance
  • 46. Et lorsqu’il aboutit, on retrouve la même interface que pour wikidata
  • 47. Il est possible de créer de nouvelles colonnes avec des données provenant de Wikidata
  • 48. Une boîte de dialogue s’ouvre pour pouvoir choisir la propriété à récupérer
  • 49. En cliquant sur une propriété, vous pouvez voir une prévisualisation
  • 50. puis le processus de récupération se lance
  • 51. Et voilà le résultat après avoir filtré les entrées qui avaient une réponse
  • 52. Une fois le travail terminé, vous pouvez exporter le résultat