SlideShare ist ein Scribd-Unternehmen logo
1 von 50
About ME
• Docteur en Informatique
• Enseignante à l’INSAT
• Chercheuse au laboratoire LIP2
BIG DATA
Tout a commencé quand l’Homme a
voulu se faire entendre…
Au début, c’était un peu
difficile…
Ensuite,
un peu mieux
Il a inventé le livre pour tout
noter
Et le téléphone pour tout dire
Il voulait une
machine qui
ferait le travail
à sa place…
Puis
partager ses
trouvailles
avec
d’autres
A début, une
poignée de
privilégiés
avaient le
monopole de
l’information sur
Internet
Les données étaient
statiques, fiables et peu
nombreuses
Le bon
vieux
temps…
Et puis un jour…
Et LÀ…
Et avec l’arrivée des Plateformes
Mobiles Intelligentes
Le Cloud
Les objets connectés
Les données ont explosé!
BIG DATA
Quand peut-on dire qu’on a
affaire à des BIG DATA?
Les n-V
VOLUME
VARIÉTÉ
VÉLOCITÉ
VÉRACITÉ
VALEU
R
VISIBILITÉ
(6ème V?)
Comment Gérer ces
Données?
MOTTO 1
Stocker d’Abord,
Réfléchir Ensuite
MOTTO 2
Ce sont les Données qui
pilotent le Traitement
(pas le contraire)
MOTTO 3
Arrêter de réfléchir en
Relationnel!
MOTTO 4
Absolument TOUTES les
Données sont
Importantes!
Facepalm
Mais tout de
même…
Comment Gérer ces
2 Grands Challenges
Stockage Traitement
STOCKAGE
Scale UP vs. Scale OUT
Scale
UP
Scale
OUT
Propriétés
ACID
Atomicité
Consistance
Isolation
Durabilité
P
A
CThéorème
CAP
Availability
Consistanc
e
Partitionneme
NO GO!
Propriétés
BASE
Basically Available
Soft-State
Eventual
Consistency
Autres Préoccupations
Formats de données variés
Formats qui changent dans le temps
Besoin d’un Système de Gestion des
Données
 Tolérant au Partitionnement
 Grande Disponibilité
 Schéma flexible
 Accès très rapide en écriture
Diminuer les jointures
Accepter les redondances
Laisser le contrôle à l’utilisateur
Systèmes de Gestion des
Données BIG DATA
NOSQL
Hadoop HDFS
TRAITEMENT
Diviser pour Régner
Diviser pour Régner
Répartir les données
Dupliquer les données
Répartir et Dupliquer
les Traitements
Diviser pour Régner
Tolérance aux
Pannes
Parallélisme de
Données
Répartition
de Charge
Parallélisme de
Traitement
Map-Reduce
Mappers Reducers
Mélanger &
Ordonner
BIG DATA
Everyone talks about it
Nobody knows how to do it
Everyone thinks everyone else is
doing it
So everyone claims they are doing it
liliasfaxi.wix.com/liliasfax
i

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Materialized Column: An Efficient Way to Optimize Queries on Nested Columns
Materialized Column: An Efficient Way to Optimize Queries on Nested ColumnsMaterialized Column: An Efficient Way to Optimize Queries on Nested Columns
Materialized Column: An Efficient Way to Optimize Queries on Nested Columns
 
Apache doris (incubating) introduction
Apache doris (incubating) introductionApache doris (incubating) introduction
Apache doris (incubating) introduction
 
Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Apache Hudi: The Path Forward
Apache Hudi: The Path ForwardApache Hudi: The Path Forward
Apache Hudi: The Path Forward
 
Delta lake and the delta architecture
Delta lake and the delta architectureDelta lake and the delta architecture
Delta lake and the delta architecture
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Parquet performance tuning: the missing guide
Parquet performance tuning: the missing guideParquet performance tuning: the missing guide
Parquet performance tuning: the missing guide
 
Presto best practices for Cluster admins, data engineers and analysts
Presto best practices for Cluster admins, data engineers and analystsPresto best practices for Cluster admins, data engineers and analysts
Presto best practices for Cluster admins, data engineers and analysts
 
Cloud-native Semantic Layer on Data Lake
Cloud-native Semantic Layer on Data LakeCloud-native Semantic Layer on Data Lake
Cloud-native Semantic Layer on Data Lake
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Apache Kudu: Technical Deep Dive


Apache Kudu: Technical Deep Dive

Apache Kudu: Technical Deep Dive


Apache Kudu: Technical Deep Dive


 
Apache NiFi Record Processing
Apache NiFi Record ProcessingApache NiFi Record Processing
Apache NiFi Record Processing
 
Introduction to Apache Spark
Introduction to Apache SparkIntroduction to Apache Spark
Introduction to Apache Spark
 
Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0
 
Deep Dive: Memory Management in Apache Spark
Deep Dive: Memory Management in Apache SparkDeep Dive: Memory Management in Apache Spark
Deep Dive: Memory Management in Apache Spark
 
Free Training: How to Build a Lakehouse
Free Training: How to Build a LakehouseFree Training: How to Build a Lakehouse
Free Training: How to Build a Lakehouse
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Data Warehouse Concepts | Data Warehouse Tutorial | Data Warehousing | Edureka
Data Warehouse Concepts | Data Warehouse Tutorial | Data Warehousing | EdurekaData Warehouse Concepts | Data Warehouse Tutorial | Data Warehousing | Edureka
Data Warehouse Concepts | Data Warehouse Tutorial | Data Warehousing | Edureka
 
Improving Python and Spark (PySpark) Performance and Interoperability
Improving Python and Spark (PySpark) Performance and InteroperabilityImproving Python and Spark (PySpark) Performance and Interoperability
Improving Python and Spark (PySpark) Performance and Interoperability
 

Andere mochten auch

Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
Soft Computing
 

Andere mochten auch (20)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Thinking BIG
Thinking BIGThinking BIG
Thinking BIG
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
BPCE Assurances - Jean-Marie Adam : Comment gérer la transformation digitale ...
BPCE Assurances - Jean-Marie Adam : Comment gérer la transformation digitale ...BPCE Assurances - Jean-Marie Adam : Comment gérer la transformation digitale ...
BPCE Assurances - Jean-Marie Adam : Comment gérer la transformation digitale ...
 
Bpifrance le lab - le numerique deroutant
Bpifrance le lab - le numerique deroutantBpifrance le lab - le numerique deroutant
Bpifrance le lab - le numerique deroutant
 
OCTO Technologies - Mobile Monday Maroc: M-Banking & M-Payment
OCTO Technologies - Mobile Monday Maroc: M-Banking & M-PaymentOCTO Technologies - Mobile Monday Maroc: M-Banking & M-Payment
OCTO Technologies - Mobile Monday Maroc: M-Banking & M-Payment
 
Les 10 questions à se poser pour manager ses choix technologiques - sous l'an...
Les 10 questions à se poser pour manager ses choix technologiques - sous l'an...Les 10 questions à se poser pour manager ses choix technologiques - sous l'an...
Les 10 questions à se poser pour manager ses choix technologiques - sous l'an...
 
Rapport tarifs-bancaires juillet 2010 / http://www.banque-france.fr/ccsf/fr/p...
Rapport tarifs-bancaires juillet 2010 / http://www.banque-france.fr/ccsf/fr/p...Rapport tarifs-bancaires juillet 2010 / http://www.banque-france.fr/ccsf/fr/p...
Rapport tarifs-bancaires juillet 2010 / http://www.banque-france.fr/ccsf/fr/p...
 
Elia Consulting - Les salariés du secteur banque/assurance face à la digitali...
Elia Consulting - Les salariés du secteur banque/assurance face à la digitali...Elia Consulting - Les salariés du secteur banque/assurance face à la digitali...
Elia Consulting - Les salariés du secteur banque/assurance face à la digitali...
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
E-banking - L'E-transformation de la Banque
E-banking - L'E-transformation de la BanqueE-banking - L'E-transformation de la Banque
E-banking - L'E-transformation de la Banque
 
Transformation digitale: quelles opportunités pour quels défis?
Transformation digitale: quelles opportunités pour quels défis?Transformation digitale: quelles opportunités pour quels défis?
Transformation digitale: quelles opportunités pour quels défis?
 
Animation Client Omnicanal
Animation Client OmnicanalAnimation Client Omnicanal
Animation Client Omnicanal
 
Groupama banque - Stratégie Digitale point presse 22 mai 2014
Groupama banque - Stratégie Digitale  point presse 22 mai 2014Groupama banque - Stratégie Digitale  point presse 22 mai 2014
Groupama banque - Stratégie Digitale point presse 22 mai 2014
 
Bpifrance Le Lab - Disrupter la banque pour la sauver
Bpifrance Le Lab - Disrupter la banque pour la sauverBpifrance Le Lab - Disrupter la banque pour la sauver
Bpifrance Le Lab - Disrupter la banque pour la sauver
 
05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik Sense05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik Sense
 
Dossier de Presse - Signature Electronique BPCE - Avril 2013
Dossier de Presse - Signature Electronique BPCE - Avril 2013Dossier de Presse - Signature Electronique BPCE - Avril 2013
Dossier de Presse - Signature Electronique BPCE - Avril 2013
 

Ähnlich wie Thinking big

Faire savoir le web s ingularité
Faire savoir le web s ingularitéFaire savoir le web s ingularité
Faire savoir le web s ingularité
Abeline Majorel
 
Usages et potentiel des dispositifs de communication géolocalisée
Usages et potentiel des dispositifs de communication géolocaliséeUsages et potentiel des dispositifs de communication géolocalisée
Usages et potentiel des dispositifs de communication géolocalisée
David Serrault
 

Ähnlich wie Thinking big (9)

Les enjeux de l'information et de l'algorithmique dans notre société
Les enjeux de l'information et de l'algorithmique dans notre sociétéLes enjeux de l'information et de l'algorithmique dans notre société
Les enjeux de l'information et de l'algorithmique dans notre société
 
L'informatique n'est pas l'amie des données
L'informatique n'est pas l'amie des donnéesL'informatique n'est pas l'amie des données
L'informatique n'est pas l'amie des données
 
Impact de la technologie dans le quotidien des gens
Impact de la technologie dans le quotidien des gensImpact de la technologie dans le quotidien des gens
Impact de la technologie dans le quotidien des gens
 
CGT-digital-week.pptx
CGT-digital-week.pptxCGT-digital-week.pptx
CGT-digital-week.pptx
 
Sfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big scienceSfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big science
 
iPad et dirigeants (7 Septembre 2010)
iPad et dirigeants (7 Septembre 2010)iPad et dirigeants (7 Septembre 2010)
iPad et dirigeants (7 Septembre 2010)
 
Faire savoir le web s ingularité
Faire savoir le web s ingularitéFaire savoir le web s ingularité
Faire savoir le web s ingularité
 
TPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielleTPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielle
 
Usages et potentiel des dispositifs de communication géolocalisée
Usages et potentiel des dispositifs de communication géolocaliséeUsages et potentiel des dispositifs de communication géolocalisée
Usages et potentiel des dispositifs de communication géolocalisée
 

Mehr von Lilia Sfaxi

Mehr von Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancés
 

Thinking big

Hinweis der Redaktion

  1. Et là… ça a dégénéré…
  2. Faisant en sorte que même quand tu es occupé, en train de te déplacer ou de discuter avec quelqu’un, tu peux toujours contribuer avec de précieuses données
  3. Le cloud, qui permet de donner encore plus d’espace, encore plus de capacité de calcul et encore plus de liberté
  4. Et les objets connectés, car maintenant les humains ne sont plus suffisants, il faut aussi que les objets envoient d’eux mêmes des messages, même quand on ne leur a rien demandé..
  5. Tout ça a fait que les données numériques ont explosé
  6. Est-ce le fait d’avoir une grande entreprise avec une dizaine de filiales, des centaines d’employés et plusieurs produits en vente veut dire qu’on a des BIG DATA?
  7. Parce qu’un jour, une personne clairvoyante va remarquer, par exemple, que toutes les jeunes gens de la ville de Hope dans le Texas adorent prendre des photos en se mettant un sac en plastique sur la tête, et bim! Une industrie de 30 milliards de dollars est née!