High-level Meeting & Workshop on Environmental and Scientific Open Data for Sustainable Development Goals in Developing Countries. Madagascar, 4-6 December 2017
L'Accord Science Internationale sur les données ouvertues dans un monde des données massives/Simon Hodson
1. L’Accord Science Internationale sur les
données ouvertes dans un monde des
données massives
Simon Hodson, Executive Director, CODATA
www.codata.org
International Workshop on Environmental and Scientific Open Data for
Sustainable Development Goals in Developing Countries
Hotel Carlton, Antananarivo, Madagascar
5 September 2017
2. L’Afrique, les données ouvertes et la
science ouverte
Le 21ème siècle est le siècle des données.
Les compétences et l'infrastructure des données seront essentielles pour
l'avancement économique et pour le développement durable.
Nous devons créer un «monde qui compte», un monde qui rassemble les
données et les utilise pour se comprendre et pour s’ameliorer.
Les données crées par la recherche, pour la recherche, ou par les activités
gouvernementales quand il y a une forte intérêt à les utiliser pour la
recherche.
Les données ouvertes et la science ouverte sont essentielles pour accroître
l'impact de la recherche et de la traduction de connaissance pour les
praticiens, les politiques, les décideurs, les entrepreneurs etc.
Il est important que les gouvernements africains, et les systèmes de
recherche et de formation s'intéressent à développer des compétences et
de l'infrastructure des données.
On doit aborder les lacunes dans la collecte des données et bâtir les
infrastructures et compétences pour la gestion, partage et analyse des
données.
Les données provenant de nombreux projets de recherche menés en
Afrique ne sont pas hébergées dans les institutions africaines (et parfois ils
ne sont plus disponibles…)
3. Les données ouvertes dans un monde de
données massives
• Science International Accord on Open Data in a Big Data
World: http://www.science-international.org/
• Soutenu par quatre grands organismes scientifiques
internationaux.
• Présente un cas puissant selon lequel les transformations
profondes signifient que les données devraient être aussi
ouvertes que possible et FAIR.
• Définit un cadre de principes, de responsabilités et des
bonnes pratiques pour réaliser la vision des données
ouvertes.
• On invite des organisations à donner leur appui et
approbation (déclarer qu’ils sont d’accord avec les
principes): http://www.science-
international.org/#endorse
4. Les données ouvertes dans un monde de
données massives
• «Les données massives et ouvertes peuvent potentiellement
bénéficier grandement aux pays moins riches et davantage
encore aux pays les moins avancés (PMA). Les systèmes nationaux
de recherche des PMA manquent cependant de ressources. Or
s’ils ne participent pas à la recherche reposant sur les données
massives et ouvertes, le fossé qui les séparent des autres pays
pourrait s’élargir encore davantage dans les prochaines années.
Il leur sera impossible de recueillir, stocker et partager les
données, de participer à l’effort de recherche mondial, de
contribuer pleinement aux travaux globaux sur le changement
climatique, les soins de santé et la protection des ressources
naturelles, ni de tirer profit de ces efforts ; ce qui diminuera
d’autant notre capacité à répondre aux problèmes globaux, là
où la participation doit effectivement être globale. Ainsi, les pays
émergents comme les pays développés ont intérêt à favoriser la
pleine mobilisation du potentiel scientifique des PMA et de
contribuer ainsi à la réalisation des Objectifs du développement
durable des Nations Unies.»
5. Principes et responsibilités
I, Scientifiques: devraient aider la la communication de
connaissances nouvelles en sorte que les données soient
accessibles aussi rapidement que possible après leur production,
de manière à permettre leur utilisation par d’autres.
II, Scientifiques: les données soutenant des affirmations
scientifiques devraient être rendues accessibles de manière
intelligente ou FAIR et ouverte simultanément à la publication; les
données crées par la recherche ou importantes pour la recherche
devraient être déposées dans des répertoires de données bien
gérés et fiables, disposant de faibles barrières d’accès.
III, Les institutions de recherche et les universités ont la
responsabilité de créer un environnement favorable aux données
ouvertes. Cela suppose des formations en gestion, préservation et
analyse des données, ainsi que du soutien technique, notamment
des services de bibliothèque et des services de gestion des
données.
6. Principes et responsibilités
IV, Les éditeurs scentifiques ont la responsabilité de rendre les
données accessibles aux évaluateurs pendant le processus
d’évaluation, d’exiger que les données soient ouvertes et
accessibles de manière intelligente au moment de la publication,
et d’exiger les références et citations complètes de ces données.
V, Les agences de financement et les ministères de recherche
devraient considérer que l’ouverture des données fait partie d’un
projet de recherche et que son coût est une partie intégrante de
celui de la recherche ; elles devraient fournir des ressources
suffisantes et une politique adaptée de manière à assurer la
pérennité des infrastructures et des référentiels.
VI, Les associations professionnelles, sociétés savantes et
académies devraient développer des lignes directrices et une
politique d’ouverture des données, et en faire la promotion d’une
manière qui reflète les normes et pratiques de leurs membres.
VII, Les bibliothèques, archives et répertoires de données ont la
responsabilité d’assurer des services et standards techniques pour
les données, afin d’assurer que les données soient accessibles,
utilisables (FAIR) et pérennes.
7. Bonne Pratiques
VIII, Limites de l’ouverture: L’ouverture des données
devrait devenir la position par défaut pour les travaux
scientifiques financés par les fonds publics. Seules des
considérations de protection de la vie privée, de sûreté, de
sécurité et d’utilisation commerciale dans l’intérêt public
devraient limiter cette ouverture.
8. Limites de l’ouverture
Les données créées avec des fonds publics ou quand il existe un fort intérêt
public, devraient être ‘ouvertes par défaut’.
Les données devraient être aussi ouvertes que possible, aussi fermées
que nécessaire.
Exceptions proportionnées pour:
Intérêts commerciaux légitimes;
Confidentialité des individus ('données sécurisées' vs Données
ouvertes - problème d'anonymisation)
Intérêt public (par exemple espèces en voie de disparition, sites
archéologiques)
Sécurité et double usage (e.g. usage aux fins mauvais, terrorisme
etc.)
Ces limites sont mal entendus et doivent être plus étudiées et mieux
comprises.
Il y a une quantité énorme de données qui ne sont pas affectées par ces
limites!
Il est nécessaire d'élaborer des politiques, des pratiques et des conseils
sur les données fermées, securisées et ouvertes.
9. Bonne Pratiques
IX, Référence et provenance: Quand des chercheurs utilisent pour
leurs travaux des données crées par d’autres, celles-ci devraient
être citées en indiquant leur créateur, leur provenance, ainsi
qu’un identifiant numérique permanent.
X, Interopérabilité: Les données de recherche, ainsi que les
métadonnées qui permettront leur examen et utilisation, doivent
le plus possible être interopérables.
XI, Utilisation non restrictive: Les données de recherche qui ne
sont pas encore tombées dans le domaine public devraient
pouvoir être identifiées comme utilisables librement, soit par la
renonciation aux droits, soit par une licence d’utilisation non
restrictive, sans autre obligation que celle d’en identifier le
créateur et la provenance.
XII, Mise en lien: Les données ouvertes devraient être autant que
possible reliées à d’autres données, sur la base de leur contenu et
contexte, afin d’en optimiser la valeur sémantique. (Linked Data)
Ces bonnes pratiques se resument en FAIR Data.
10. FAIR Data
• FAIR Data Principles (principes des données ‘TAIR’): adoptées de plus en plus comme un résumé
des attributs qui augmentent la valeur des données de recherche.
• Président du Groupe d'experts de la Commission européenne pour élaborer des directives de mise
en œuvre pour les données FAIR
• La valeur des données réside dans la réutilisation. Quels sont les attributs qui rendent les
données réutilisables?
• Findable (Trouvable): avoir des métadonnées suffisamment riches et un identifiant unique
et persistant.
• Accessible: récupérables par les humains et les machines par un protocole standard;
ouvertes et gratuites par défaut; authentification et autorisation si nécessaire.
• Interopérable: les métadonnées suivent des standards et des normes; utilisant un «standard
formel, accessible, partagé et largement applicable pour la représentation des
connaissances».
• Réutilisable: les métadonnées fournissent des informations riches et précises; les droits
d'utilisation sont claires; la provenance des données est détaillée.
11. The Open Data Iceberg
Le défi technique
Le défi du système
Le défi de financement
Le défi de soutien
Le défi des compétences
Le défi incitatif, de motivations
Le défit de mentalité, de culture
Pratiques et
organisation
Les gens
Geoffrey Boulton (CODATA) - developed from an idea by Deetjen, U., E. T. Meyer and R. Schroeder
(2015). OECD Digital Economy Papers, No. 246, OECD Publishing.
Une infrastructure (inter)nationale
La technologie
12. Cadre pour des stratégies nationales et
institutionneles
Composants des strategies nationales et institutionnelles relatives
aux données:
Politiques et directives sur les données ouvertes à l’échelle
nationale et institutionelle.
Clarifier les limites de l'ouverture (en particulier la
confidentialité, les droits de propriété intellectuelle).
Mécanismes (infrastructure et politique) pour assurer la
publication simultanée de données en tant que résultats de
recherche.
Développement de compétences en données (chercheurs et
ceux qui sont responsables pour les données).
Développement de l'infrastructure nationale et
institutionnelle pour la collaboration en recherche et de
l'intendance des données / repertoires.
Infrastructures collaboratives pour certaines disciplines de
recherche, au niveau national, régional, pour mettre en
commun l'expertise et réduire les coûts.
13. Simon Hodson
Executive Director CODATA
www.codata.org
http://lists.codata.org/mailman/listinfo/codata-international_lists.codata.org
Email: simon@codata.org
Twitter: @simonhodson99
Tel (Office): +33 1 45 25 04 96 | Tel (Cell): +33 6 86 30 42 59
CODATA (ICSU Committee on Data for Science and Technology), 5 rue Auguste Vacquerie, 75016 Paris,
Thank you for your attention!
Slide credits: in this presentation, I have reused, adapted and credited some slides from presentations by Geoffrey Boulton, Danny Kingsley,
Michael Lautenschlager, Li Guoqing, Marshall Ma and the Dryad Data Repository
14. La stratégie CODATA :
Mobiliser la révolution des données
Trois priorités stratégiques:
Promouvoir les politiques et bonnes pratiques
pour les données ouvertes;
Faire progresser la science des données;
Renforcer les capacités en améliorant les
compétences en matière de données.
Un organisme mondial sans but lucratif
On fait partie du conseil international pour la
science (ICSU).
Renforcer la science au bénéfice de la société
en améliorant la disponibilité et la qualité des
données pour tous les domaines de
recherche.
Les pays membres et les participants à nos
activités s'étendent sur l'ensemble du globe.
Le Comité exécutif a une large représentation,
y compris des membres du Kenya et de
l'Afrique du Sud.
16. La Science Ouverte
Qu’est-ce que c’est la science ouverte?:
Accès libre et gratis (Open Access) à la littérature de
recherche.
Les données qui soient aussi ouvertes que possible,
aussi fermées que nécessaire.
FAIR Data (‘TAIR’ trouvable, accessible,
interopérable, réutilisable).
Une vitrine qui valorise et donne accès à tous les
résultats de la recherche.
Une culture de discussion ouverte et d'enquête (y
compris la méthodologie, les cahiers de laboratoire,
les ‘pre-prints’)
Open Data et Open Science ont accéléré la recherche dans
certaines disciplines (génomique, astronomie, sciences du
climat, toutes disciplines utilisant la télédétection y
compris environnement, ecologie, biodiversité etc.).
Avantages pour la société, le gouvernement et le
développement durable: données et résultats
disponibles pour une meilleure politique, entreprise,
innovation.
Hinweis der Redaktion
CODATA made a major contribution to the debate through the Science International Accord on Open Data in a Big Data World. Excellent IUCr position paper in response. Welcome endorsements from other organisations.
CODATA made a major contribution to the debate through the Science International Accord on Open Data in a Big Data World. Excellent IUCr position paper in response. Welcome endorsements from other organisations.
We are experiencing a
We are experiencing a
We are experiencing a
One of the remaining challenges is proportionately defining the necessary boundaries of openness. Important that open data should be the default; data should be as open as possible and (only) as closed as necessary. Proportionate limitations for justified cases of personal data protection, IPR concerns, national security or similar.
We are experiencing a
It is not an exaggeration to say that there is an emerging policy consensus around FAIR. In an accessible way, FAIR summarises attributes of data which have been stressed in a number of policy documents, including the Royal Society report on Science as an Open Enterprise and its definition of ‘intelligent openness’.
To support this, we need to think about the challenge holistically. It is not restricted to the technical issues.
We are experiencing a
We are experiencing a
CODATA was established by the International Council for Science to promote the availability and quality of data for all areas of research.
CODATA has three strategic priority areas: Please consult the CODATA strategy and Prospectus for more information.
promoting data principles, policies and practice: recent work includes a survey of research data policies, a report on the value of open data sharing for GEO, the promotion of data citation and the Science International Accord on Open Data in a Big Data World, which has been endorsed by IUCr.
advancing the frontiers of data science: this is done through Task Groups and Working Groups; by means of the Data Science Journal, relaunched with Ubiquity Press and regular conferences (henceforth we intend to organise a CODATA Conference in odd years and International Data Week, with RDA and WDS, in even years).
mobilising data capacity (with particular attention strategies, skills and ‘soft’ infrastructure in LMICs): through the initiative for a foundational curriculum for research data science (research data science summer schools), the regular Open Data Training Workshops hosted by CODATA China and the capacity building element of initiatives like the African Open Science Platform.