3. Du Big Data au Smart Data
Nicolas Fulpius – Chief Digital Officer
EPFL – Oct 7, 2015
4. L’accélération de la numérisation
impacte notre société
New
Business Models
New Ways
of Working
Customer
Experience
Business
Processes
E2E Connectivity
Devices ApplicationsInfrastructure Plates-formes
Capteurs, Wearables,
« Things »
Solutions,
applis
Data Storage & Aggregation,
Cloud, Data Center
Plates-formes de service,
data analytics, APIs
La Chaine de Valeur Digitale
Les Dimensions de la Digitalisation
5. En 2017, on s’attend à ce que le M-commerce
réalise 516 milliards de dollars de transaction.
9. Swisscom comme moteur de la
digitalisation en Suisse
E2E Connectivity
Devices ApplicationsInfrastructure Plates-formes
Capteurs, Wearables,
« Things »
Solutions,
applis
Data Storage & Aggregation,
Cloud, Data Center
Plates-formes de service,
data analytics, APIs
La Chaine de Valeur Digitale
New
Business Models
New Ways
of Working
Customer
Experience
Business
Processes
Les Dimensions de la Digitalisation
14. Noé a fait le choix des catégories
Marketing 1.0
Marketing 2.0
L’opinion
Les sondages
Les attitudes sur le long terme
Les marques
15. Les sciences sociales
et le marketing 3.0
Tracer les data
Activités et Memes
Rapidité davantage que
volume et diversité
Contexte
16. L’alliance des médias populaires et
du Social Media :
un puissant moteur, producteur de données en temps réel
17.
18.
19.
20. Exemple :
détection de tous
Les réseaux
d’influences
• par communautés
actives graphe 1
• par controverses
graphe 2
• avec les émotions
associées graphe 3
• le réseau nuisible à
l’intérêt de la marque
graphe 4.
Une marque sous influence !
Graphe 1 Graphe 2
Graphe 3 Graphe 4
EPFL Social Media Lab
21. “…everybody here has other much more important business to take care of.”
http://youtu.be/-ybecKdwj2c
Leaders et opinion publique: le grand fossé
Négociations sur le changement climatique (Copenhague)
22. Le défi de la COP 21 : un débat
citoyen
• développer une pédagogie à l’intention du public,
• assurer transparence et clarté des débats et des
positions de négociation
EPFL Social Media Lab
30. Collaborative Filtering
• Big data = matrice des achats:
• Gourmande => il faut avoir acheté ≈1% des produits pour
trouver des associations fiables.
a b c d e f g h i j k l
Antoine x x x x
Chantal x x x
Francois x x x
Nicole x x x
Pierre x x x x
30
31. Smart Data
• Apprentissage: trouver un modèle à peu de
paramètres qui prédit les articles achetés.
31
Achats
(peu remplie)
U V
≈ x
d (traits latents)
d
Clients
Produits
Produits
Clients
32. Modèle => Prévisions
• Supposons 2 traits latents f1 et f2:
a b c d e f g h i j k l
f1 1 0 1 1 0 0 1 0 0 0 0 0
f2 0 1 0 0 1 1 0 1 1 1 0 0
f1 f2
Antoine 0 1
Chantal 1 0
Francois 0 1
Nicole 1 0
Pierre 0 1
0 1 0 0 1 1 0 1 1 1 0 0
1 0 1 1 0 0 1 0 0 0 0 0
0 1 0 0 1 1 0 1 1 1 0 0
1 0 1 1 0 0 1 0 0 0 0 0
0 0 0 0 1 1 0 1 1 1 0 0
32
33. Big Data
• 100’000 produits, 1 million utilisateurs =>
Matrice: 100 milliards de paramètres.
• 20 achats/utilisateur: 20 millions de données.
• Modèle à d=5 dimensions latents:
5.5 millions de paramètres: faisable!
• Optimiser la prédiction des achats connus.
33
34. Failles de l’optimisation
• Evaluation = précision moyenne:
– Article populaire: poids = 1000 achats
– Article “long tail”: poids = 2-3 achats
• Modèle optimisé pour être correct sur les articles
populaires…
• …mais pas sur les articles “longue traîne”
• recommendation précise, mais pas nouvelle!
34
36. Ontology Filtering (Schickel)
• Performance au laboratoire, sur Movielens:
– Bonne précision déjà avec 5 achats au lieu de 40!
• Thèse recomponsé par prix Chorafas.
36
37. • Tourne sur plus de 40 sites.
• Influence sur les ventes par
rapport aux systèmes
antérieurs:
entre + 30 et + 700%.
• Grace à une forte composante
de recommendations “long
tail”.
37
38. En Conclusion
• Smart data = recommendation.
• Clé pour l’évolution de l’ecommerce.
• Techniques (et performances) très variés.
• Attention à l’évaluation:
Critère doit correspondre aux objectifs.
38
40. ObViz
Swisscom & ObViz
40
• Boi Faltings
• Maxime
Darçot
• Gaylor
Bosson
• Claudiu Musat
• Etudiants en Master à l’EPFL
• Audrey Loeffel
CEO
CTO
Web&
Scalability
Interface
Board of
Directors
• Ph.D & postdoc en IA
• 7 ans d’expérience dans l’industrie
• Prof. EPFL - 30 ans dans la
recherche
• Serial Entrepreneur – Fondateur de
Nexthink et Preddigo
• 2 Masters en Computer Science
76. Comment les visiteurs se comportent?
Compter
• Visiteurs #: 246
• Zone / Section
1118
Directions : Entrée / Sortie
• Zone #1 : 18 / 11
Durations
• Temps de visite
• Temps d’attente
• Temps de service
Distances
• Distance Parcourue
• Chemin de visiteurs
Heat maps
• Hot spots
• Zone d'intérêt
98. Mutualize Data
plus de complexité -> Précision
Securité / Données Privées
Impacte à long terme des fuites d’information
Réseau – partage entre laboratoires
Bénéficier de l’expérience des autres
07.10.2015 CONFIDENTIAL 98
Differentes Hopitaux:
Big Data –> Clinical Diagnostics
104. SIB missions
• To provide core databases, software and services
worldwide
• To provide key competencies and research
support
To provide world-
class core bioinformatics
resources to the life
science community
• To federate Swiss bioinformatics researchers
• To train first-rate researchers
To lead and
coordinate the field
of bioinformatics in Switzerland
105.
106. To provide core databases,
software and services
worldwide
• World-renowned encyclopedia of
protein sequences and functional
information
• > 540,000 curated protein sequences
• ~ 220,000 curated literature
references
• ~ 800,000 visits per month
• A central hub linking to over 140
other resources worldwide
• A team of over 50 biocurators,
developers, IT and support staff
Enabling Big Data - the Swiss-Prot group
107. 4000 years of evolution of biocuration,
Structuring knowledge
108. Challenge 1: knowledge representation
genes and genomes
proteins
complexes
chemicals
reactions
pathways
systems
UniPathway
109. ● In databases
● The level of erroneous annotation is
higher in automatically annotated
databases than in manually expert
curated ones
● In literature
● Not every published findings is latter
confirmed independently ...
Challenge 2: Errors, Mistakes, Imprecisions
110. Swiss-Prot people
Ioannis Xenarios
Director
Alan BridgeLydie Bougueleret Sylvain Poux Nicole Redaschi
Operation Director
Head of Curation
Head of Automation
Head of Development
Ioannis Xenarios
111. The Vital-IT group (Lausanne)
To provide key competencies
& research support to the
national life science community
112. Vital-IT: A “cloud” HPC
• > 6’000 cores
• >1’400 software maintained
as RPM release
• > 6 PB near-line/archive data
An infrastructure distributed over western Switzerland
The infrastructure is
centrally managed
from Lausanne
113. Vital-IT supports the technology plateforms
• Technology platforms are located in the
the different universities, at the EPFL
• Genomics (sequencing)
• Proteomics
• Screening and imaging
• Bioinformatics "core" facilities
• Biostatistics
• Data growth (raw unprocessed)
• from 1TB/week (2007)
• to >32 TB /week (2014)
• 42 TB/week Q1 2015
Need to archive >10-25 years
114. Vital-IT infrastructure
And Competence
Platforms of Ecole polytechnique Fédérale de Lausanne
Platforms of University of Lausanne
LGTF1,PAF2,PMF3,BCF4, PMF5
Platforms of University of Fribourg
NGS1,BugFri4
Platforms of Bern
NGS1,IFBU4
PCF2,BSF3,BBCF4
Platforms of Geneva University
iGE3-genomics (ex-NCCR genome)1, PCF/BPRG2
Platforms specificities
1: Genomics
2: Proteomics
3: Screening and imaging
4:Bioinformatics Core facilities
5: Protein Modeling Facility
115. People at Vital-IT
Christian Iseli Marco Pagni Mark IbbersonNicolas Guex Brian Stevenson
HPC
OncoGenomics
Personalized
Genomes
Metagenomics
Metabolic Models
Evidence-based
BioMedecine
Computational
Systems Biology
Roberto Fabbretti Jérôme DauvillierRobin Liechti
hardware software development data analysis
Computational
Genomics
Scientific vizualisation
Neuro-genomics
116. Repertoire of (longitudinal) ‘omics data available
Proteome
Transcriptome
(mRNA, isoforms, edits,
miRNA, lincRNA, …)
Cytokines
Metabolome
Genome &
Epigenome
Microbiome
Viriome
EMR / EHR
PERSONAL DATA
« PRECISION »
MEDICINE
Antibody-ome
Environment
(exposome)
Etc’ome
nutriome
• Improve biological and medical
knowledge
• Improve disease definition
• Discovery diagnostic markers
• Discovery prognostic markers
• Understanding early pathophysiology
• Disease stratification
• Patient stratification
• New therapeutic leads
• Adapt therapies to the above
Slide from the Clinical Bioinformatics
Head Jacqui Beckmann (SIB)
121. 121Protection des donnees – les principes de base
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent à l’étranger
122. 122Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Croissance exponentielle
Caractère personnel (permanent) ?
123. 123Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Hébergement ? Stockage dans le cloud ?
Indexation ? Chiffrement ?
124. 124Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Pas qu’un seul «maître»,
Pas qu’un seul fichier
125. 125Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Aucun traitement ne peut-il vraiment être justifié
par principe ?
126. 126Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Caractère artificiel du consentement donné (en ligne)
Absence de précision sur la finalité | les utilisations
futures
127. 127Protection des donnees – Nouveaux defis
données personnelles
traitement
maître de fichier
motif justificatif
consentement
niveau de protection équivalent
Appréciation politique, sociale, culturelle
Analyse au cas par cas nécessaire (dans les faits),
pas de blanc seing par pays (Safe Harbor !)
133. 133
Données personnelles ? Probablement, par analyses (anonymes ?) et recoupements…
Protection des donnees – SMART DATA
134. 134Protection des donnees – big data | SMART DATA
Données personnelles, par moments – Comment régler la question de
l’assujettissement à la réglementation ? Et qui joue le rôle du «maître du
fichier» ?
Comment s’assurer d’un consentement véritable sans connaître la finalité du
traitement au moment de la collecte des données, puisqu’elle dépendra des
analyses | recoupements?
Comment assurer le droit d’accès à des fractions de données éparpillées,
sachant que celui qui compile les bases de données ou les met à disposition
n’est pas forcément celui qui procède aux analyses | recoupements ?
135. 135Protection des donnees – big data | SMART DATA
Evolution ?
Consentement présumé pour
toute utilisation des données qui
serait «reconnaissable» au
moment de leur collecte
Certification par des tiers (de
confiance ?)
Renforcement des sanctions
137. 137Protection des donnees – big data | SMART DATA
Big Bang ?
Sécurisation des données,
indépendamment de leur
caractère personnel ou non
«opting out» généralisé
Données sensibles avec
devoirs spécifiques (santé ?
géolocalisation ?)
Renforcement des droits de
la personnalité
138. 138Protection des donnees – big data | SMART DATA
Solutions
technologiques
«Privacy by design»
«Privacy by default»
Atout majeur pour
les sociétés suisses
139. 139
MICHEL JACCARD
id est avocats
Email Michel.Jaccard@idest.pro | Michel.Jaccard@protonmail.ch
URL www.idest.pro
Twitter @idestavocats
Questions