SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Les TIC et l’art
OpenRefine
traitement de données en masse
Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
LOD cloud diagram d’août 2014
L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets
collaboratifs d’entrepôts de données sémantiques sur le web
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Qu’est-ce qu’OpenRefine ?
Historique :
2007 mars : Metaweb lance Freebase
2010 : Freebase est proposée avec l’outil de nettoyage et de
traitement des données Gridworks (v1.0)
2010 juillet : Google rachète Metaweb
2010 nov : Gridworks devient Google Refine
2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient
OpenRefine
[2012 : Le contenu de Freebase est transféré sur Wikidata
2014 déc : Google annonce la fermeture de Freebase
2015 : Fermeture progressive de Freebase et des services associés
2016 mai : Fermeture définitive de Freebase
…………………..]
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Un tutoriel pas à pas sur OpenRefine :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
1. Installation d’OpenRefine : http://openrefine.org/download.html
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
2. Récupérer un set de données à nettoyer pour l’atelier :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Exercices…
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Où les trouver ? Comment les installer ?
• Sur le site officiel, à la page des
téléchargments
-> http://openrefine.org/download.html
• sur Github, dans des répertoires
spécifiques (recherche sur « plugin et/ou
extension)
-> http://bit.ly/1X9TEx4
-> http://bit.ly/1UEghq1
• Fermer l’application
• Se rendre dans le répertoire où se trouve
l’application
• Dans le dossier /webapp/, créer le dossier
« extensions » si celui-ci n’existe pas
• Télécharger l’extension souhaitée au
format .zip, le dézipper et placer ce
répertoire dans le répertoire
/webapp/extensions
• Relancer l’application
« Augmenter » le comportement d’OpenRefine
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
« Augmenter » le comportement d’OpenRefine
Les plugins/extensions les + utiles
• Exporter les données en RDF (à partir d’un squelette
issue d’une ontologie par ex.)
• https://github.com/fadmaa/grefine-rdf-
extension/releases
• (ATTENTION: renommer le dossier dezippé en
« rdf-extension » avant de le copier dans le
répertoire /webapp/extensions/)
• Extraction d’entités nommées
• https://github.com/RubenVerborgh/Refine-NER-
Extension
• VIB-BITS: 3 plugins (gestions des actions/historique;
comparaison entre 2 textes; gestions des facettes)
• https://www.bits.vib.be/index.php/software-
overview/openrefine
• Réaliser des statistiques
• https://github.com/sparkica/refine-stats
Des services à paramétrer
• La reconciliation avec VIAF
• http://refine.codefork.com/
• Aller dans « Add Standard Service » puis ajouter
le code suivant:
http://refine.codefork.com/reconcile/viaf
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Une utilisation « augmentée » d’OpenRefine
Quelques exemples/exercices
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et
Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value,
"url »)
• Extraite les coordonnées géographiques dans une autre colonne
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
OpenRefine & les plugins
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• cells['Lieu_naissance 1'].value + ", Etats-Unis"
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url »)
• Extraite les coordonnées géographiques dans une autre colonne
• with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
• cell.recon.match.id
Quelques exemples/exercices -> réponses
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Certains des + d’OpenRefine
• Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets
• cell.cross("My Address Book", "friend")[0].cells["address"].value[0]
• Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json
• Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply
• Extraire des données d’une page web
• Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML
Paramétrages pratiques
• Paramétrer le nombre de facettes autorisées
• http://127.0.0.1:3333/preferences
• Ajouter ui.browsing.listFacet.limit (ex 10000)
• Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros)
• modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”

Weitere ähnliche Inhalte

Was ist angesagt?

Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Lesticetlart Invisu
 
Les TIC et l’art : outils de partage (images, fichiers, video, son)
Les TIC et l’art : outils de partage (images, fichiers, video, son)Les TIC et l’art : outils de partage (images, fichiers, video, son)
Les TIC et l’art : outils de partage (images, fichiers, video, son)
Lesticetlart Invisu
 
Les TIC et l'Art : Flux RSS, principes et outils
Les TIC et l'Art : Flux RSS, principes et outilsLes TIC et l'Art : Flux RSS, principes et outils
Les TIC et l'Art : Flux RSS, principes et outils
Lesticetlart Invisu
 

Was ist angesagt? (14)

Les TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNamesLes TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNames
 
Les TIC et l'art : Zotero
Les TIC et l'art : ZoteroLes TIC et l'art : Zotero
Les TIC et l'art : Zotero
 
Flux RSS, principes et outils
Flux RSS, principes et outilsFlux RSS, principes et outils
Flux RSS, principes et outils
 
Omeka : exposition virtuelle
Omeka : exposition virtuelleOmeka : exposition virtuelle
Omeka : exposition virtuelle
 
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
 
Les TIC et l'art : l'Open Access
Les TIC et l'art : l'Open AccessLes TIC et l'art : l'Open Access
Les TIC et l'art : l'Open Access
 
Les TIC et l’art : outils de partage (images, fichiers, video, son)
Les TIC et l’art : outils de partage (images, fichiers, video, son)Les TIC et l’art : outils de partage (images, fichiers, video, son)
Les TIC et l’art : outils de partage (images, fichiers, video, son)
 
DBpedia Cafe-In
DBpedia Cafe-InDBpedia Cafe-In
DBpedia Cafe-In
 
DBpédia en français
DBpédia en françaisDBpédia en français
DBpédia en français
 
Le dépôt légal du web
Le dépôt légal du webLe dépôt légal du web
Le dépôt légal du web
 
Autour de Wikipédia et des projets frères
Autour de Wikipédia et des projets frèresAutour de Wikipédia et des projets frères
Autour de Wikipédia et des projets frères
 
Les TIC et l'Art : Flux RSS, principes et outils
Les TIC et l'Art : Flux RSS, principes et outilsLes TIC et l'Art : Flux RSS, principes et outils
Les TIC et l'Art : Flux RSS, principes et outils
 
Europeana et IIIF
Europeana et IIIFEuropeana et IIIF
Europeana et IIIF
 
La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...
 

Andere mochten auch

Mi cuerpo el camino
Mi cuerpo el caminoMi cuerpo el camino
Mi cuerpo el camino
JORGE GAMA
 
Emtp User Group092008 Edf Ttr Discordance Phase Web
Emtp User Group092008 Edf Ttr Discordance Phase WebEmtp User Group092008 Edf Ttr Discordance Phase Web
Emtp User Group092008 Edf Ttr Discordance Phase Web
corinne rocherieux
 
Pres difodia
Pres difodiaPres difodia
Pres difodia
klas68
 
Emtp User Group092008 Sicae Raccordement Resau Web
Emtp User Group092008 Sicae Raccordement Resau WebEmtp User Group092008 Sicae Raccordement Resau Web
Emtp User Group092008 Sicae Raccordement Resau Web
corinne rocherieux
 
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos NuncaEllos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
guest0e972a75
 
Diapo Mawafe
Diapo MawafeDiapo Mawafe
Diapo Mawafe
natalia
 
Jose vasquez actividad_3
Jose vasquez actividad_3Jose vasquez actividad_3
Jose vasquez actividad_3
Ramiro Vasquez
 

Andere mochten auch (20)

Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Mi cuerpo el camino
Mi cuerpo el caminoMi cuerpo el camino
Mi cuerpo el camino
 
Zotero mendeley 20121018
Zotero mendeley 20121018Zotero mendeley 20121018
Zotero mendeley 20121018
 
Emtp User Group092008 Edf Ttr Discordance Phase Web
Emtp User Group092008 Edf Ttr Discordance Phase WebEmtp User Group092008 Edf Ttr Discordance Phase Web
Emtp User Group092008 Edf Ttr Discordance Phase Web
 
2
22
2
 
Pres difodia
Pres difodiaPres difodia
Pres difodia
 
Emtp User Group092008 Sicae Raccordement Resau Web
Emtp User Group092008 Sicae Raccordement Resau WebEmtp User Group092008 Sicae Raccordement Resau Web
Emtp User Group092008 Sicae Raccordement Resau Web
 
Photos Insolites
Photos InsolitesPhotos Insolites
Photos Insolites
 
Andres amador
Andres amador Andres amador
Andres amador
 
Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?
 
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos NuncaEllos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
 
el pla
el plael pla
el pla
 
Diapo Mawafe
Diapo MawafeDiapo Mawafe
Diapo Mawafe
 
Lafemme Th
Lafemme ThLafemme Th
Lafemme Th
 
Cat18
Cat18Cat18
Cat18
 
Xtc conference-sial-2010
Xtc conference-sial-2010Xtc conference-sial-2010
Xtc conference-sial-2010
 
Promenade dans les calanques
Promenade dans les calanquesPromenade dans les calanques
Promenade dans les calanques
 
visioaccueils - EPN 2.0 CRéATIF
visioaccueils - EPN 2.0 CRéATIFvisioaccueils - EPN 2.0 CRéATIF
visioaccueils - EPN 2.0 CRéATIF
 
Jose vasquez actividad_3
Jose vasquez actividad_3Jose vasquez actividad_3
Jose vasquez actividad_3
 
Docentes inei
Docentes ineiDocentes inei
Docentes inei
 

Ähnlich wie OpenRefine: traitement de données en masse

Evenement museal - Buzzeum - Marseille 2.0
Evenement museal - Buzzeum - Marseille 2.0Evenement museal - Buzzeum - Marseille 2.0
Evenement museal - Buzzeum - Marseille 2.0
marseille20
 

Ähnlich wie OpenRefine: traitement de données en masse (20)

Des métadonnées pour les images numériques du patrimoine culturel: présentati...
Des métadonnées pour les images numériques du patrimoine culturel: présentati...Des métadonnées pour les images numériques du patrimoine culturel: présentati...
Des métadonnées pour les images numériques du patrimoine culturel: présentati...
 
Formation zotero30012014
Formation zotero30012014Formation zotero30012014
Formation zotero30012014
 
Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...
Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...
Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...
 
Bilan des 4 premières années du Museolab
Bilan des 4 premières années du MuseolabBilan des 4 premières années du Museolab
Bilan des 4 premières années du Museolab
 
Fête de la science 2017 programme pour le scolaire
Fête de la science 2017 programme pour le scolaireFête de la science 2017 programme pour le scolaire
Fête de la science 2017 programme pour le scolaire
 
Museomix presentation générale - Edition 2013
Museomix presentation générale - Edition 2013Museomix presentation générale - Edition 2013
Museomix presentation générale - Edition 2013
 
Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...
Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...
Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...
 
1303 culture partage
1303 culture partage1303 culture partage
1303 culture partage
 
Présentation Diagonale aux Journées Recherche en Design 16 10 14
Présentation Diagonale aux Journées Recherche en Design 16 10 14Présentation Diagonale aux Journées Recherche en Design 16 10 14
Présentation Diagonale aux Journées Recherche en Design 16 10 14
 
Visites accompagnees en_numerik_formation_cnfpt2011
Visites accompagnees en_numerik_formation_cnfpt2011Visites accompagnees en_numerik_formation_cnfpt2011
Visites accompagnees en_numerik_formation_cnfpt2011
 
Museomix - 2015 Canadian Museum Association Conference
Museomix - 2015 Canadian Museum Association ConferenceMuseomix - 2015 Canadian Museum Association Conference
Museomix - 2015 Canadian Museum Association Conference
 
Data sprint des archives
Data sprint  des archives   Data sprint  des archives
Data sprint des archives
 
Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014)
Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014) Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014)
Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014)
 
Estampages_EfA_dec2016
Estampages_EfA_dec2016Estampages_EfA_dec2016
Estampages_EfA_dec2016
 
Accéder à l'art et à la culture grâce au Web
Accéder à l'art et à la culture grâce au WebAccéder à l'art et à la culture grâce au Web
Accéder à l'art et à la culture grâce au Web
 
Evenement museal - Buzzeum - Marseille 2.0
Evenement museal - Buzzeum - Marseille 2.0Evenement museal - Buzzeum - Marseille 2.0
Evenement museal - Buzzeum - Marseille 2.0
 
Principales ressources au Centre GéoStat (2016)
Principales ressources au Centre GéoStat (2016)Principales ressources au Centre GéoStat (2016)
Principales ressources au Centre GéoStat (2016)
 
Museomix présentation générale
Museomix   présentation généraleMuseomix   présentation générale
Museomix présentation générale
 
L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010
L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010
L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010
 
Les TIC et l'art: images numériques et métadonnées
Les TIC et l'art: images numériques et métadonnéesLes TIC et l'art: images numériques et métadonnées
Les TIC et l'art: images numériques et métadonnées
 

Mehr von Lesticetlart Invisu

Mehr von Lesticetlart Invisu (20)

Invisu plaquette 2017
Invisu plaquette 2017Invisu plaquette 2017
Invisu plaquette 2017
 
Publier à quel prix?
Publier à quel prix? Publier à quel prix?
Publier à quel prix?
 
Plaquette InVisu 2016
Plaquette InVisu 2016Plaquette InVisu 2016
Plaquette InVisu 2016
 
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériquesKit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
 
Kit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériquesKit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériques
 
Atelier Zotero intermédiaire
Atelier Zotero intermédiaireAtelier Zotero intermédiaire
Atelier Zotero intermédiaire
 
Gérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec ZoteroGérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec Zotero
 
Dossier thématique droit cnrs
Dossier thématique droit cnrsDossier thématique droit cnrs
Dossier thématique droit cnrs
 
Plaquette InVisu 2015
Plaquette InVisu 2015Plaquette InVisu 2015
Plaquette InVisu 2015
 
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
 
Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...
 
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la RechercheIdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Réaliser un plan de gestion de données
Réaliser un plan de gestion de donnéesRéaliser un plan de gestion de données
Réaliser un plan de gestion de données
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...
 
Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...
Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...
Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...
 
Illustration des questions de dialogue et coordination entre les acteurs à tr...
Illustration des questions de dialogue et coordination entre les acteurs à tr...Illustration des questions de dialogue et coordination entre les acteurs à tr...
Illustration des questions de dialogue et coordination entre les acteurs à tr...
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
 
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
 
Diffuser pour mieux préserver : l’expérience de beQuali
Diffuser pour mieux préserver : l’expérience de beQualiDiffuser pour mieux préserver : l’expérience de beQuali
Diffuser pour mieux préserver : l’expérience de beQuali
 

Kürzlich hochgeladen

Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
ssuserc72852
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
Faga1939
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Kürzlich hochgeladen (18)

La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 

OpenRefine: traitement de données en masse

  • 1. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Les TIC et l’art OpenRefine traitement de données en masse Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
  • 2. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr LOD cloud diagram d’août 2014 L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web
  • 3. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Qu’est-ce qu’OpenRefine ? Historique : 2007 mars : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine [2012 : Le contenu de Freebase est transféré sur Wikidata 2014 déc : Google annonce la fermeture de Freebase 2015 : Fermeture progressive de Freebase et des services associés 2016 mai : Fermeture définitive de Freebase …………………..]
  • 4. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Un tutoriel pas à pas sur OpenRefine : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  • 5. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 1. Installation d’OpenRefine : http://openrefine.org/download.html
  • 6. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 2. Récupérer un set de données à nettoyer pour l’atelier : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  • 7. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Exercices…
  • 8. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Où les trouver ? Comment les installer ? • Sur le site officiel, à la page des téléchargments -> http://openrefine.org/download.html • sur Github, dans des répertoires spécifiques (recherche sur « plugin et/ou extension) -> http://bit.ly/1X9TEx4 -> http://bit.ly/1UEghq1 • Fermer l’application • Se rendre dans le répertoire où se trouve l’application • Dans le dossier /webapp/, créer le dossier « extensions » si celui-ci n’existe pas • Télécharger l’extension souhaitée au format .zip, le dézipper et placer ce répertoire dans le répertoire /webapp/extensions • Relancer l’application « Augmenter » le comportement d’OpenRefine
  • 9. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr « Augmenter » le comportement d’OpenRefine Les plugins/extensions les + utiles • Exporter les données en RDF (à partir d’un squelette issue d’une ontologie par ex.) • https://github.com/fadmaa/grefine-rdf- extension/releases • (ATTENTION: renommer le dossier dezippé en « rdf-extension » avant de le copier dans le répertoire /webapp/extensions/) • Extraction d’entités nommées • https://github.com/RubenVerborgh/Refine-NER- Extension • VIB-BITS: 3 plugins (gestions des actions/historique; comparaison entre 2 textes; gestions des facettes) • https://www.bits.vib.be/index.php/software- overview/openrefine • Réaliser des statistiques • https://github.com/sparkica/refine-stats Des services à paramétrer • La reconciliation avec VIAF • http://refine.codefork.com/ • Aller dans « Add Standard Service » puis ajouter le code suivant: http://refine.codefork.com/reconcile/viaf
  • 10. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Une utilisation « augmentée » d’OpenRefine Quelques exemples/exercices • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
  • 11. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr OpenRefine & les plugins • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • cells['Lieu_naissance 1'].value + ", Etats-Unis" • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng) • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF • cell.recon.match.id Quelques exemples/exercices -> réponses
  • 12. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Certains des + d’OpenRefine • Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets • cell.cross("My Address Book", "friend")[0].cells["address"].value[0] • Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json • Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply • Extraire des données d’une page web • Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML Paramétrages pratiques • Paramétrer le nombre de facettes autorisées • http://127.0.0.1:3333/preferences • Ajouter ui.browsing.listFacet.limit (ex 10000) • Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros) • modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”