Aligner vos données avec Wikidata grâce à l'outil Open Refine

Aligner vos données avec
Wikidata grâce à l’outil Open
Refine
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net

Présentation de l’outil
Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... »
• Outil créé en par David Huynh et Stefano Mazzochi
au sein de la société Metaweb
• S’est appelé « Griworks » puis « Google Refine » et
enfin « Open Refine »
• Depuis 2012 dans la communauté
• La V3.0 est sortie officiellement le 16 septembre
2018 après plusieurs années sans sortie
• Très apprécié dans le monde des bibliothèques
• Open source
Pour télécharger l’outil  http://openrefine.org/download.html

Les serveurs de réconciliation Open Refine
•Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine-
wikidata/fr/api
•ORCID http://refine.codefork.com/reconcile/orcid et
http://refine.codefork.com/reconcile/orcid/smartnames
• VIAF http://refine.codefork.com/reconcile/viaf
Outil de réconciliation
Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents
dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF
La requête SPARQL : https://data.archives-ouvertes.fr/sparql
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf
<https://hal.inria.fr/INRIA>; dcterms:creator ?creator.
?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name.
OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')}
}
GROUP BY ?person ?name ?same
ORDER BY DESC(?nbs)
LIMIT 300
https://bit.ly/2C3APY2
Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier-
une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903

Aller sur l’IHM du sparql endpoint de HAL
https://data.archives-ouvertes.fr/sparql

Saisir la requête qui permet de retrouver les
personnes qui vous intéressent

Récupérer l’URL de la requête dans la
page de réponse

Aller sur le site https://meyerweb.com/eric/tools/dencoder/
pour encoder la requête conformément aux URLs
Cliquer sur Encode

Récupérer la requête encodé
conformément aux URLs

Modifier le paramètre query avec la chaîne
encodée et le paramètre format avec la valeur
« csv »

Lancer Open Refine et cliquer sur
« Web address (URLs) »

Copier l’URL modifiée de la requête et
cliquer sur « Next »

Après récupération des données, vous
obtenez cette interface
Cliquer ici pour
modifier l’encodage
des caractères

Choisir l’encodage « UTF-8 »

Modifier le nom du projet et cliquer
sur « Create project »

Vous pouvez augmenter le nombre de
lignes affichées

Modifier un champ texte en nombre…

…pour permettre de faire une facette
de nombres par exemple

Pour transformer une chaîne de
caractères, cliquer sur « Transform »

pour afficher la boîte de manipulation
des champs

et par exemple ici supprimer une
partie de la chaîne de caractère

Vous pouvez renommer une colonne

Pour réconcilier/aligner vos données avec
Wikidata, Orcid, VIAF…

L’interface de réconciliation s’affiche, vous
pouvez ajouter un service de réconciliation

par exemple, la réconciliation avec des entrées
Wikidata par leur étiquette en français

Vous cliquez sur le service ajouté

Vous pouvez préciser une propriété
pour faciliter l’alignement
Une auto-complétion permet
de choisir sur quelle propriété
aligner les valeurs de la colonne

Quand tout est prêt, vous pouvez cliquer sur le
bouton « Start Reconciling »

Et le processus de réconciliation se
lance en tâche de fond…

Lorsque le processus est terminé, les entrées alignées
ont un lien et les autres ont des propositions

Pour choisir une proposition, il suffit
de cliquer sur la coche
En cliquant sur le
lien, vous pouvez
aller sur la pageEn cliquant sur la coche, vous
sélectionnez l’entrée

Pour récupérer l’identifiant, il faut
ajouter une colonne

Il faut entrer le nom de la nouvelle colonne et indiquer
dans l’expression « cell.recon.match.id »

Si on veut à présent aligner avec
ORCID…

Sélectionner les entrées qui n’ont pas déjà
un ORCID, en créant une facette

En cliquant sur true, on sélectionne les
lignes sans entrée ORCID

Il faut d’abord créer une autre colonne
pour lancer la réconciliation

On donne un nouveau nom à la
colonne et on clique sur « OK »

On relance l’interface de réconciliation sur
la nouvelle colonne

On ajoute le service de réconciliation à l’adresse «
http://refine.codefork.com/reconcile/orcid » puis on
clique sur « Start Reconciling »

Le processus de réconciliation se lance

Et lorsqu’il aboutit, on retrouve la
même interface que pour wikidata

Il est possible de créer de nouvelles colonnes
avec des données provenant de Wikidata

Une boîte de dialogue s’ouvre pour pouvoir
choisir la propriété à récupérer

En cliquant sur une propriété, vous
pouvez voir une prévisualisation

puis le processus de récupération se
lance

Et voilà le résultat après avoir filtré les
entrées qui avaient une réponse

Une fois le travail terminé, vous
pouvez exporter le résultat

Aligner vos données avec Wikidata grâce à l'outil Open Refine

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Aligner vos données avec Wikidata grâce à l'outil Open Refine

Ähnlich wie Aligner vos données avec Wikidata grâce à l'outil Open Refine (20)

Mehr von Gautier Poupeau

Mehr von Gautier Poupeau (17)

Aligner vos données avec Wikidata grâce à l'outil Open Refine