These slides were presented at the Big Data Congress held in Paris on March 20-21st 2012. Concepts and uses cases of Big Data in geosciences were presented.
1. BIG DATA
en Sciences et Industries de l’Environnement
Francois Royer
¸
www.datasio.com
21 mars 2012
FR — Big Data Congress, Paris 2012 — 1/23
2. ´
Tracabilite
¸ ´
Oceanographie
Transport terrestre
Imagerie satellite
´
Transport aerien ´ ´ ´
Telemetrie - Argos
FR — Big Data Congress, Paris 2012 — 2/23
3. ´
Points cles
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi
´ ´
Hadoop et les donnees geographiques et temporelles
FR — Big Data Congress, Paris 2012 — 3/23
4. ´
Points cles
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi
´ ´
Hadoop et les donnees geographiques et temporelles
FR — Big Data Congress, Paris 2012 — 4/23
5. `
L’ere du ”Data Scientist”
´ ´
L’accumulation exponentielle de donnees transforme la demarche d’analyse
1960
E. Wigner, ”The Unreasonable Effectiveness of
Mathematics in the Natural Sciences,” Comm. Pure and
Applied Mathematics, vol. 13, no. 1, pp. 1–14.
2009
A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable
Effectiveness of Data,” IEEE Intelligent Systems, vol. 24,
no. 2, pp. 8-12.
FR — Big Data Congress, Paris 2012 — 5/23
6. `
L’ere du ”Data Scientist”
´ ´
L’accumulation exponentielle de donnees transforme la demarche d’analyse
1960
E. Wigner, ”The Unreasonable Effectiveness of
Mathematics in the Natural Sciences,” Comm. Pure and
Applied Mathematics, vol. 13, no. 1, pp. 1–14.
2009
A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable
Effectiveness of Data,” IEEE Intelligent Systems, vol. 24,
no. 2, pp. 8-12.
FR — Big Data Congress, Paris 2012 — 5/23
7. All models are wrong,
“ but some are useful.
” George Box
FR — Big Data Congress, Paris 2012 — 6/23
8. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
9. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
10. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
11. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
12. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
13. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
14. Data Scientist
´
= nouveau metier?
Ce qui ne change pas
´
Le besoin en competences statistiques
´ ´
(Bayesiennes, frequentistes etc...)
´
La demarche de questionnement et de critique
´
Les protocoles de collecte de donnees
Ce qui change
´
Le stockage et le traitement de donnees
´ ´
L’interaction entre modelisateurs, ingenieurs
` ´
systemes et bases de donnees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
15. ´
Points cles
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi
´ ´
Hadoop et les donnees geographiques et temporelles
FR — Big Data Congress, Paris 2012 — 8/23
16. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
17. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
18. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
19. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
20. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
21. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
22. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
23. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
24. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
25. ´
Definition
Big Data = gros volume (> 10 TB)
Imagerie satellite 1-10 GB/jour
` ´ ´ ´
Systemes geolocalises (vehicules, personnes) 100
MB/jour
` ´ ´
Modeles meteo 100 GB/jour
Simulateurs (traffic routier etc...) 100 GB/run
Big Data + Big Process
´ ´ ´
Donnees pre-traitees (GPS) Cout d’analyse -
ˆ
´
Aggregation, contextualisation Cout d’analyse +
ˆ
Appels BD Cout d’analyse +++
ˆ
Calculs en cascade Cout d’analyse +++
ˆ
FR — Big Data Congress, Paris 2012 — 9/23
26. Diagnostic Big Data
`
Docteur, ais-je un probleme Big Data?
Oui, si :
´
Vous avez un reseau d’observation autonome
´ ´
(capteurs meteo, RFID, GPS, balises Argos,
´ ´ `
smartphones, telemetres, instruments sur
satellites...)
´ ´
Vos donnees dependent d’une communaute ´
´ ´
d’utilisateurs ou d’individus instrumentes (etude de la
´ ´
mobilite humaine, ecologie terrestre et marine etc... )
Votre budget, programme de recherche ou business
´
plan prevoit de ”mesurer d’abord, traiter ensuite”
`
Ces systemes de collecte produisent des flots de
´
donnees plus vite que vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
27. Diagnostic Big Data
`
Docteur, ais-je un probleme Big Data?
Oui, si :
´
Vous avez un reseau d’observation autonome
´ ´
(capteurs meteo, RFID, GPS, balises Argos,
´ ´ `
smartphones, telemetres, instruments sur
satellites...)
´ ´
Vos donnees dependent d’une communaute ´
´ ´
d’utilisateurs ou d’individus instrumentes (etude de la
´ ´
mobilite humaine, ecologie terrestre et marine etc... )
Votre budget, programme de recherche ou business
´
plan prevoit de ”mesurer d’abord, traiter ensuite”
`
Ces systemes de collecte produisent des flots de
´
donnees plus vite que vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
28. Diagnostic Big Data
`
Docteur, ais-je un probleme Big Data?
Oui, si :
´
Vous avez un reseau d’observation autonome
´ ´
(capteurs meteo, RFID, GPS, balises Argos,
´ ´ `
smartphones, telemetres, instruments sur
satellites...)
´ ´
Vos donnees dependent d’une communaute ´
´ ´
d’utilisateurs ou d’individus instrumentes (etude de la
´ ´
mobilite humaine, ecologie terrestre et marine etc... )
Votre budget, programme de recherche ou business
´
plan prevoit de ”mesurer d’abord, traiter ensuite”
`
Ces systemes de collecte produisent des flots de
´
donnees plus vite que vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
29. Diagnostic Big Data
`
Docteur, ais-je un probleme Big Data?
Oui, si :
´
Vous avez un reseau d’observation autonome
´ ´
(capteurs meteo, RFID, GPS, balises Argos,
´ ´ `
smartphones, telemetres, instruments sur
satellites...)
´ ´
Vos donnees dependent d’une communaute ´
´ ´
d’utilisateurs ou d’individus instrumentes (etude de la
´ ´
mobilite humaine, ecologie terrestre et marine etc... )
Votre budget, programme de recherche ou business
´
plan prevoit de ”mesurer d’abord, traiter ensuite”
`
Ces systemes de collecte produisent des flots de
´
donnees plus vite que vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
30. Diagnostic Big Data
`
Docteur, ais-je un probleme Big Data?
Oui, si :
´
Vous avez un reseau d’observation autonome
´ ´
(capteurs meteo, RFID, GPS, balises Argos,
´ ´ `
smartphones, telemetres, instruments sur
satellites...)
´ ´
Vos donnees dependent d’une communaute ´
´ ´
d’utilisateurs ou d’individus instrumentes (etude de la
´ ´
mobilite humaine, ecologie terrestre et marine etc... )
Votre budget, programme de recherche ou business
´
plan prevoit de ”mesurer d’abord, traiter ensuite”
`
Ces systemes de collecte produisent des flots de
´
donnees plus vite que vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
31. Diagnostic Big Data
C’est grave, Docteur?
Tout ira bien,
“ je vais vous prescrire du DevOps et des calculs
´
distribues.
”
FR — Big Data Congress, Paris 2012 — 11/23
34. Solutions Big Data
´
Operations
Dev
FR — Big Data Congress, Paris 2012 — 12/23
35. Solutions Big Data
´
Operations
QA Dev
FR — Big Data Congress, Paris 2012 — 12/23
36. Solutions Big Data
´
Operations
DevOps
QA Dev
FR — Big Data Congress, Paris 2012 — 12/23
37. Solutions Big Data
Hier
Noeuds de
stockage
´ ´
peripheriques
Stockage sur
plusieurs niveaux
”chaud”/”froid”
Supercalculateur
au centre
Data -> Code
FR — Big Data Congress, Paris 2012 — 13/23
38. Solutions Big Data
Hier
Noeuds de
stockage
´ ´
peripheriques
Stockage sur
plusieurs niveaux
”chaud”/”froid”
Supercalculateur
au centre
Data -> Code
FR — Big Data Congress, Paris 2012 — 13/23
39. Solutions Big Data
Hier
Noeuds de
stockage
´ ´
peripheriques
Stockage sur
plusieurs niveaux
”chaud”/”froid”
Supercalculateur
au centre
Data -> Code
FR — Big Data Congress, Paris 2012 — 13/23
40. Solutions Big Data
Hier
Noeuds de
stockage
´ ´
peripheriques
Stockage sur
plusieurs niveaux
”chaud”/”froid”
Supercalculateur
au centre
Data -> Code
FR — Big Data Congress, Paris 2012 — 13/23
41. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
42. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
43. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
44. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
45. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
46. Solutions Big Data
Aujourd’hui
ˆ ´
Noeuds de stockage sur meme reseau GB
´
Materiel milieu de gamme (100 - 1000 CPUs)
` ´
Systeme de fichiers distribues (DFS)
´
Gestion des jobs et donnees par des Master Nodes
Code -> Data
FR — Big Data Congress, Paris 2012 — 14/23
47. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
48. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
49. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
50. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
51. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
52. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
53. Solutions Big Data
Pourquoi Hadoop?
Open source (fondation Apache, ouvert par Yahoo)
´
Projet en maturation, communaute active
´ ˆ ´
Parallelisation de taches et donnees robuste
´
Standard de facto en analyse de donnees massives
´ ´
Bonne interoperabilite avec les data warehouse et
BDs existantes (ETL, Hive, Sqoop)
Offres commerciales (support, packaging,
´
integration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
54. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
55. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
56. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
57. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
58. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
59. Solutions Big Data
Pourquoi Hadoop?
`
Difficile a ”tuner” pour des jobs complexes
Encore confidentiel en France (cf. groupe Hadoop
France sur LinkedIn)
Difficile de formuler certains algorithmes sous forme
map-reduce
´
Embauche et formation de developpeurs et analystes
Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
62. Solutions Big Data
Map Reduce
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
63. Solutions Big Data
Map Reduce HBase
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
64. Solutions Big Data
Hive
Map Reduce HBase
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
65. Solutions Big Data
Hive Pig
Map Reduce HBase
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
66. Solutions Big Data
Hive Pig Mahout
Map Reduce HBase
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
67. Solutions Big Data
Zookeeper
Hive Pig Mahout
Map Reduce HBase
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
68. ´
Points cles
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi
´ ´
Hadoop et les donnees geographiques et temporelles
FR — Big Data Congress, Paris 2012 — 18/23
69. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
70. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
71. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
72. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
73. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
74. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
75. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
76. Hadoop-xyt
´ ´
ou Hadoop et les donnees geographiques et temporelles
Besoin
´
retraitement et fouille de donnees historiques
´ ´
(geographiques et series temporelles)
´ ´ ´
Accelerer la decouverte d’anomalies et l’extraction de
´
valeur ajoutee
´
Problematique
´ ` ´ ´
Donnees tres structurees - solution competitive?
´ ´ ´ ´
Donnees correlees = pb du traitement independant?
´ ´
Donnees stockees en fichiers binaires - distribution?
´ ` ´
Algorithmes metier a reutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
77. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
78. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
79. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
80. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
81. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
82. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
83. Hadoop-xyt
Traitement d’images
Extraction + tiling + rendering
`
Calculs massivement paralleles = gain de temps +++
FR — Big Data Congress, Paris 2012 — 20/23
84. Hadoop-xyt
´ ´
Geolocalisation de vehicules
FR — Big Data Congress, Paris 2012 — 21/23
85. ´
Tracabilite
¸ ´
Oceanographie
Transport terrestre
Imagerie satellite
´
Transport aerien ´ ´ ´
Telemetrie - Argos
FR — Big Data Congress, Paris 2012 — 22/23
86. Datasio
We are Data Scientists
Data Mining · Prototypage · Algorithmie ·
Detection d’anomalies · Prediction · Machine
´ ´
Learning · Spatial data · Time series
Francois Royer
¸
froyer@datasio.com
www.datasio.com
FR — Big Data Congress, Paris 2012 — 23/23