10. Origine des données
Séquençage d’ADN et d’ARN
Stockage des données
Fragments de génomes
Un ou plusieurs gènes, un bout de gène, séquence intergénique…
Génomes complets
ARNm, ARNt, ARNr…
(fragments ou entiers)
11. Chaque biologiste souhaiterait connaître :
- le jeu complet et précis des gènes et leur emplacement
sur le génome
- l’ensemble des transcrits d’un génome
- le lieu et le moment d’expression
- la protéine produite par chaque transcrit
- le lieu et le moment de l’expression de chaque protéine
- la fonction de chaque protéine
- les mécanismes cellulaires
auxquels participent
les protéines.
12. Métabases de données
- comparaison de cartes génétiques
- alignement des génomes
détermination de l’arbre phylogénétique pour
comprendre l’évolution
de la vie et les mécanismes
moléculaires associés
18. Ce sont les installations scientifiques qui
produisent le plus de données.
De nombreux projets, de dimension pharaonique, sont en cours.
Le radiotelescope Square Kilometre Array par exemple, produira
50 teraoctets de données analysées par jour,
à un rythme de 7 000 teraoctets de données brutes par seconde !
19. Les expériences du Large Hadron Collider représentent
environ 150 millions de capteurs délivrant des données
40 millions de fois par seconde.
6000 millions de collisions par seconde, et après filtrage,
il reste 100 collisions d’intérêt par seconde.
En conséquence, 25 Po de données à stocker chaque année,
et 200 Po après réplication.
20. Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des
données astronomiques en 2000, il a amassé plus de données en
quelques semaines que toutes les données collectées dans l’histoire
de l’astronomie.
Il continue à un rythme de 200 Go par nuit, et a aujourd’hui stocké
plus de 140 teraoctets d’information.
Des prévisions annoncent que le Large Synoptic Survey Telescope,
dont la mise en route est prévue en 2015, amassera ce même
montant tous les cinq jours.
21. Une masse de données considérable transite chaque jour sur internet.
L’analyse de ces données et leur croisement produisent à leur tour
un volume exponentiel de nouvelles données
le big data
22. Le volume des données stockées est en pleine
expansion.
de 1,2 zettaoctets/an en 2010 à 1,8 zettaoctets en 2011,
puis 2,8 zettaoctets en 2012
environ 40 zettaoctets en 2017.
exemples
Twitter génére 7 teraoctets de données/ jour et
Facebook 10 teraoctets (janvier 2013)
23. 3 ensembles de questions
- questions épistémologiques liés à des
- questions pratiques et éthiques
- questions culturelles
- sur les plans éducation et médiation
24. Donnée / Information / Connaissance
Une donnée est un élément –une notion, un fait, une
instruction, un indice, une norme,..- issu d’une
investigation…
Elle est élaborée par un humain mais de plus en plus souvent par des
systèmes automatiques pour créer de l’information ou
servir un raisonnement, une recherche
questions épistémologiques
25. Une donnée n’est pas neutre, elle est déterminée par :
- les intérêts de la personne et du groupe qui la récoltent et la
traitent,
- les moyens techniques,
institutionnels choisis pour la
prélever, la révéler,
- la destination qu’on envisage
…
« L’être humain perçoit des Données, interprète des Informations, fait
des liens avec d’autres Connaissances mémorisées et est ensuite
capable d’agir avec ses Connaissances. »
26. Le terme général « donnée » peut avoir différentes significations :
- une « donnée » au sens statistique est un élément destiné à être étudié dans le
cadre d’une analyse.
-une « donnée » au sens informatique est une description élémentaire, souvent
codée, d'une réalité (chose, transaction, événement, etc.) destinée à faire l'objet
d'un traitement.
modèle de données relationnel
modèle de données entité-association
modèle de données objet
modèle de données hiérarchique
modèle de données réseaux,…
données qualitatives
données quantitatives
27. bases de données
les bases de données sont des données organisées à l'aide de logiciels appelés
SGBD (Système de Gestion de Bases de Données) comme PostgreSQL, MySQL ou
Oracle,..
- base de données structurées
- base de données semi-structurées
≱ les banques de données sont des collections de fichiers
les algorithmes ne sont en rien objectifs… produits d’un contexte ou
d’une culture
28. La science des données (en anglais data science)
est une discipline qui comprend des éléments de mathématiques, de
statistiques, d'informatique et de visualisation des données.
Le terme a été inventé par William Cleveland dans un article programmatique paru
en 2001 intitulé Data Science: An Action Plan for Expanding the Technical Areas of
the Field of Statistics .
29. Questions pratiques
1. Les questions se sont complexifiées
- approche systémique
- intégrer différentes échelles
- besoin de plusieurs niveaux d'information
- données hétérogènes et incomplètes
comprendre / prédire / argumenter /aider à la décision
30. 2. Les données ne sont pas immédiates
- multiples types d'acquisition
- innovations dans les méthodes d'acquisition
- mesures quantitatives
- séries spatio-temporelles
- textes, images
- fouille de texte
- analyse d'image
- recherche de descripteurs pertinents
- stockage et organisation
- besoins de méthodes et outils d'extraction
- choix des données
-…
31. Stockage
67% des cadres supérieurs ne sauraient pas exactement où sont stockées les
données de leur entreprise (cloud ou support externe) et
74% des entreprises avouent ne pas avoir d’outil approprié leur permettant de
savoir où leurs fichiers ont été stockés. (étude par Varonis Systems, 2014)
32. 3. Productions automatiques
A 6h25 du matin, le lundi 17 mars 2014, un tremblement de terre
secouait Los Angeles.
A 6h28, le site du Los Angeles Times publiait un article comprenant
toutes les informations sur la puissance et la localisation du séisme.
l’article avait été rédigé par Quakebot,
un « robot-journaliste »
« Un tremblement de terre peu profond de magnitude 4.7 a été signalé
lundi matin à cinq miles (8 km) de Westwood, Californie, selon le
bureau géologique des Etats-Unis. La secousse s’est produite à 6h25
heure du Pacifique à une profondeur de 5,0 miles, selon l’USGS,
l’épicentre se trouvait à six miles (9,6 km) de Beverly Hills [...]. Cette
information est fournie par le service d’annonce des tremblements de
terre de l’USGS et ce billet a été créé par un algorithme. »
33. 4. Enjeux sur le partage des données
- identifier, trier et organiser les données
- consortiums, plateformes, data centers,
- travailler avec des partenaires variés
- labos, instituts, coopératives
- sciences participatives
- faciliter l'accès libre et global
- « Open Data » sensu stricto
- outils de fouille
- assurer la capacité à réutiliser les données
- les renseigner (méta-données)
- les harmoniser (ontologies)
34. Une « donnée à caractère personnel »
peut bénéficier d'une certaine protection dans le cadre de la Protection de la vie
privée ou du Droit à l'image.
Une « donnée ouverte »
caractérise une donnée censée pouvoir être plus ou moins largement être connue
et faire l'objet en conséquence d'une publication organisée (globale ou sélective).
La notion de « donnée publique »
caractérise une donnée devant être transparente et connue du plus grand nombre.
Sa diffusion est en général du ressort de la puissance publique,
notamment dans le cadre de la liberté d'accès aux documents administratifs.
Questions éthiques
38. Statistiques d'accidents
Selon le dernier bilan de la Sécurité routière, 3 268 personnes ont perdu la vie
en 2013 sur les routes françaises, contre 3 653 en 2012 (- 10,5 %). Ainsi, 385 vies
ont été épargnées en 2013. Il s’agit de la plus forte baisse de la mortalité
constatée depuis 2006.
est considéré comme mort sur la route « toute personne
qui décède sur le coup ou dans les trente jours
qui suivent l’accident » ;
avant 2004 les statistiques ne faisaient état que de tués dans les 6 jours.
Pour comparer avec les voisins européens, on multipliait par le coefficient 1,057.
Depuis 2005 ce coefficient a été revu à la hausse à 1,069.
2. apprentissage des données et
des bases de données
45. 3. transformation des contenus éducatifs…
et de l’organisation des cursus scolaires
et universitaires
- bases de données,
- plateformes numériques
- MOOC
- ateliers numériques
- fablab numériques
- conférences TED,
46.
47. Réinterroger les habitudes
- enseigner / apprendre
- organisation de l’université
- organisation du temps
- un prof = une amphi = une heure = une discipline
-évaluation
- programme/disciplines
Le développement des données numériques
vont bouleverser l’enseignement :
le savoir, la pédagogie, la distance, la relation avec
le professeur, l’évaluation,
50. Paradigmes à changer
penser la pédagogie universitaire
valoriser l’enseignement au même titre que a
recherche
faire un bilan de l’existant
mettre en avant l’apprendre plutôt que
l’enseignement
former les enseignants
développer une recherche sur la pédagogie
universitaire
plutôt que d’apporter des contenus disponibles partout
permettre aux étudiants de s’approprier
les démarches.
priorité à l’apprendre à apprendre
52. Pour les enseignants,
le challenge est de passer de la posture
du maître à celle du « coach »
aux côtés de l’étudiant
53. Transmetteur de connaissances
Accompagnateur
Metteur en savoir
+ soutien
> créer le désir d’apprendre
> fournir l’environnement pour apprendre
Repères
> faciliter les liens, les ancrages
> faciliter la « réflexion sur »
54. Je vous remercie
André Giordan
Université de Genève
<andre.giordan@unige.ch>
Site personnel : http://www.andregiordan.com
Site LDES : http://www.ldes.unige.ch