Datasio - Big Data Congress Paris 2012

1. BIG DATA en Sciences et Industries de l’Environnement Francois Royer ¸ www.datasio.com 21 mars 2012 FR — Big Data Congress, Paris 2012 — 1/23

2. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - Argos FR — Big Data Congress, Paris 2012 — 2/23

3. ´ Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporelles FR — Big Data Congress, Paris 2012 — 3/23

5. ` L’ere du ”Data Scientist” ´ ´ L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR — Big Data Congress, Paris 2012 — 5/23

6. ` L’ere du ”Data Scientist” ´ ´ L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR — Big Data Congress, Paris 2012 — 5/23

7. All models are wrong, “ but some are useful. ” George Box FR — Big Data Congress, Paris 2012 — 6/23

8. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23

16. ´ Deﬁnition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (trafﬁc routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23

26. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des ﬂots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23

31. Diagnostic Big Data C’est grave, Docteur? Tout ira bien, “ je vais vous prescrire du DevOps et des calculs ´ distribues. ” FR — Big Data Congress, Paris 2012 — 11/23

32. Solutions Big Data FR — Big Data Congress, Paris 2012 — 12/23

33. Solutions Big Data Dev FR — Big Data Congress, Paris 2012 — 12/23

34. Solutions Big Data ´ Operations Dev FR — Big Data Congress, Paris 2012 — 12/23

35. Solutions Big Data ´ Operations QA Dev FR — Big Data Congress, Paris 2012 — 12/23

36. Solutions Big Data ´ Operations DevOps QA Dev FR — Big Data Congress, Paris 2012 — 12/23

37. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> Code FR — Big Data Congress, Paris 2012 — 13/23

41. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de ﬁchiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23

47. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23

54. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23

60. Solutions Big Data FR — Big Data Congress, Paris 2012 — 17/23

61. Solutions Big Data HDFS FR — Big Data Congress, Paris 2012 — 17/23

62. Solutions Big Data Map Reduce HDFS FR — Big Data Congress, Paris 2012 — 17/23

63. Solutions Big Data Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23

64. Solutions Big Data Hive Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23

65. Solutions Big Data Hive Pig Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23

66. Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23

67. Solutions Big Data Zookeeper Hive Pig Mahout Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23

69. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en ﬁchiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23

77. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23

84. Hadoop-xyt ´ ´ Geolocalisation de vehicules FR — Big Data Congress, Paris 2012 — 21/23

85. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - Argos FR — Big Data Congress, Paris 2012 — 22/23

86. Datasio We are Data Scientists Data Mining · Prototypage · Algorithmie · Detection d’anomalies · Prediction · Machine ´ ´ Learning · Spatial data · Time series Francois Royer ¸ froyer@datasio.com www.datasio.com FR — Big Data Congress, Paris 2012 — 23/23

Datasio - Big Data Congress Paris 2012

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie Datasio - Big Data Congress Paris 2012

Ähnlich wie Datasio - Big Data Congress Paris 2012 (20)

Datasio - Big Data Congress Paris 2012