SlideShare ist ein Scribd-Unternehmen logo
1 von 19
BIG DATA
C’est quoi?
Le Big Data regroupe des données présentant
une grande variété, arrivant en volumes croissants, à
grande vitesse. Gartner, 2001
La volumicité des données
La volumicité des données
Hadoop ecosystem
MapReduce
SPARK vs Hadoop MapReduce
SPARK vs Hadoop MapReduce
SPARK ecosystem
Cluster Management
• Apache Spark, un moteur de traitement de
données volumineuses, peut être exécuté en
mode distribué sur un cluster.
• Les applications Spark sont exécutées en tant
qu'ensembles de processus indépendants sur
un cluster, le tout étant coordonné par un
coordinateur central. Ce coordinateur central
peut communiquer avec trois gestionnaires de
cluster différents, Spark's Standalone, Apache
Mesos et Hadoop YARN (Encore un
négociateur de ressources).
Cluster Modes
Apache
Mesos
Spark
Standalone
Hadoop
YARN
• Lorsque le programme utilise son propre gestionnaire de ressources, le mode
d'exécution s'appelle autonome
• Peut être exécuté en local ou pas
Cluster Management
Communication au sein du cluster
• Les workers établissent une communication bidirectionnelle avec le
master : le worker se connecte au master pour ouvrir un canal dans un
sens, puis le master se connecte au worker pour ouvrir un canal dans le
sens inverse .
• Les nœuds du cluster (master comme workers) exposent par ailleurs une
interface Web permettant de surveiller l’état du cluster ainsi que
l’avancement des traitements. Chaque nœud ouvre donc deux ports :
– un port pour la communication interne : port 7077 par défaut pour le
master, port aléatoire pour les workers
– un port pour l’interface Web : port 8080 par défaut pour le master,
port 8081 par défaut pour les workers.
Création du cluster
• Démarrage du master
– spark-class org.apache.spark.deploy.master.Master
• Démarrage des workers
– spark-class org.apache.spark.deploy.worker.Worker spark://DESKTOP-
2AMJN5B:7077
• Lancement du shell en mode cluster
– pyspark --master spark://DESKTOP-2AMJN5B::7077
Anaconda
• Au lieu de lancer l’exécution sur le shell windows on a opté pour
anaconda qui est:
– est une distribution Python. A son installation, Anaconda
installera Python ainsi qu’une multitude de packages. Cela nous
évite de nous ruer dans les problèmes d’incompatibilités entre
les différents packages.
– Anaconda propose aussi un outil de gestion de packages
appelé Conda. Ce dernier permettra de mettre à jour et installer
facilement les librairies dont on aura besoin pour nos
développements.
Anaconda
• Pour l’usage du big data et du Machine Learning, on a
généralement besoin des librairies suivantes :
– NumPy
– SciPy
– Matplotlib
– Pandas
– Scikit-learn
– Statsmodels
noteBook Jupyter
• Jupyter est une application web utilisée pour programmer
dans plus de 40 langages de programmation,
dont: Python, Julia, Ruby, R, ou encore Scala
• C’est une interface web dans laquelle vous pouvez taper du code
Python, l'exécuter et voir directement les résultats, y compris une
visualisation à l'aide de graphiques.
• Ce type de notebooks sont utilisés en science des
données pour explorer et analyser des données.
MERCI
160813-technology-template-16x9.pptx

Weitere ähnliche Inhalte

Ähnlich wie 160813-technology-template-16x9.pptx

Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KJulien Anguenot
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big DataAmal Abid
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Hamza Ben Marzouk
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in ParisTed Drake
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptxbely26
 
Presentation des outils traitements distribues
Presentation des outils traitements distribuesPresentation des outils traitements distribues
Presentation des outils traitements distribuesLê Anh
 
0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdfOmbotimbe Salifou
 
Rapport d'installation de Linux Engine X MariaDB PHP5
Rapport d'installation de Linux Engine X MariaDB PHP5Rapport d'installation de Linux Engine X MariaDB PHP5
Rapport d'installation de Linux Engine X MariaDB PHP5Mame Cheikh Ibra Niang
 

Ähnlich wie 160813-technology-template-16x9.pptx (20)

Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.K
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Ldap.16
Ldap.16Ldap.16
Ldap.16
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
REX Ansible
REX AnsibleREX Ansible
REX Ansible
 
REX Openshift à la Poste
REX Openshift à la PosteREX Openshift à la Poste
REX Openshift à la Poste
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
 
docker.pdf
docker.pdfdocker.pdf
docker.pdf
 
Elastic serach
Elastic serachElastic serach
Elastic serach
 
Presentation des outils traitements distribues
Presentation des outils traitements distribuesPresentation des outils traitements distribues
Presentation des outils traitements distribues
 
Big sql4meetup
Big sql4meetupBig sql4meetup
Big sql4meetup
 
0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf
 
Rapport d'installation de Linux Engine X MariaDB PHP5
Rapport d'installation de Linux Engine X MariaDB PHP5Rapport d'installation de Linux Engine X MariaDB PHP5
Rapport d'installation de Linux Engine X MariaDB PHP5
 

160813-technology-template-16x9.pptx

  • 2. C’est quoi? Le Big Data regroupe des données présentant une grande variété, arrivant en volumes croissants, à grande vitesse. Gartner, 2001
  • 7. SPARK vs Hadoop MapReduce
  • 8. SPARK vs Hadoop MapReduce
  • 10. Cluster Management • Apache Spark, un moteur de traitement de données volumineuses, peut être exécuté en mode distribué sur un cluster. • Les applications Spark sont exécutées en tant qu'ensembles de processus indépendants sur un cluster, le tout étant coordonné par un coordinateur central. Ce coordinateur central peut communiquer avec trois gestionnaires de cluster différents, Spark's Standalone, Apache Mesos et Hadoop YARN (Encore un négociateur de ressources).
  • 11. Cluster Modes Apache Mesos Spark Standalone Hadoop YARN • Lorsque le programme utilise son propre gestionnaire de ressources, le mode d'exécution s'appelle autonome • Peut être exécuté en local ou pas
  • 13. Communication au sein du cluster • Les workers établissent une communication bidirectionnelle avec le master : le worker se connecte au master pour ouvrir un canal dans un sens, puis le master se connecte au worker pour ouvrir un canal dans le sens inverse . • Les nœuds du cluster (master comme workers) exposent par ailleurs une interface Web permettant de surveiller l’état du cluster ainsi que l’avancement des traitements. Chaque nœud ouvre donc deux ports : – un port pour la communication interne : port 7077 par défaut pour le master, port aléatoire pour les workers – un port pour l’interface Web : port 8080 par défaut pour le master, port 8081 par défaut pour les workers.
  • 14. Création du cluster • Démarrage du master – spark-class org.apache.spark.deploy.master.Master • Démarrage des workers – spark-class org.apache.spark.deploy.worker.Worker spark://DESKTOP- 2AMJN5B:7077 • Lancement du shell en mode cluster – pyspark --master spark://DESKTOP-2AMJN5B::7077
  • 15. Anaconda • Au lieu de lancer l’exécution sur le shell windows on a opté pour anaconda qui est: – est une distribution Python. A son installation, Anaconda installera Python ainsi qu’une multitude de packages. Cela nous évite de nous ruer dans les problèmes d’incompatibilités entre les différents packages. – Anaconda propose aussi un outil de gestion de packages appelé Conda. Ce dernier permettra de mettre à jour et installer facilement les librairies dont on aura besoin pour nos développements.
  • 16. Anaconda • Pour l’usage du big data et du Machine Learning, on a généralement besoin des librairies suivantes : – NumPy – SciPy – Matplotlib – Pandas – Scikit-learn – Statsmodels
  • 17. noteBook Jupyter • Jupyter est une application web utilisée pour programmer dans plus de 40 langages de programmation, dont: Python, Julia, Ruby, R, ou encore Scala • C’est une interface web dans laquelle vous pouvez taper du code Python, l'exécuter et voir directement les résultats, y compris une visualisation à l'aide de graphiques. • Ce type de notebooks sont utilisés en science des données pour explorer et analyser des données.
  • 18. MERCI