160813-technology-template-16x9.pptx

C’est quoi?
Le Big Data regroupe des données présentant
une grande variété, arrivant en volumes croissants, à
grande vitesse. Gartner, 2001

Cluster Management
• Apache Spark, un moteur de traitement de
données volumineuses, peut être exécuté en
mode distribué sur un cluster.
• Les applications Spark sont exécutées en tant
qu'ensembles de processus indépendants sur
un cluster, le tout étant coordonné par un
coordinateur central. Ce coordinateur central
peut communiquer avec trois gestionnaires de
cluster différents, Spark's Standalone, Apache
Mesos et Hadoop YARN (Encore un
négociateur de ressources).

Cluster Modes
Apache
Mesos
Spark
Standalone
Hadoop
YARN
• Lorsque le programme utilise son propre gestionnaire de ressources, le mode
d'exécution s'appelle autonome
• Peut être exécuté en local ou pas

Communication au sein du cluster
• Les workers établissent une communication bidirectionnelle avec le
master : le worker se connecte au master pour ouvrir un canal dans un
sens, puis le master se connecte au worker pour ouvrir un canal dans le
sens inverse .
• Les nœuds du cluster (master comme workers) exposent par ailleurs une
interface Web permettant de surveiller l’état du cluster ainsi que
l’avancement des traitements. Chaque nœud ouvre donc deux ports :
– un port pour la communication interne : port 7077 par défaut pour le
master, port aléatoire pour les workers
– un port pour l’interface Web : port 8080 par défaut pour le master,
port 8081 par défaut pour les workers.

Création du cluster
• Démarrage du master
– spark-class org.apache.spark.deploy.master.Master
• Démarrage des workers
– spark-class org.apache.spark.deploy.worker.Worker spark://DESKTOP-
2AMJN5B:7077
• Lancement du shell en mode cluster
– pyspark --master spark://DESKTOP-2AMJN5B::7077

Anaconda
• Au lieu de lancer l’exécution sur le shell windows on a opté pour
anaconda qui est:
– est une distribution Python. A son installation, Anaconda
installera Python ainsi qu’une multitude de packages. Cela nous
évite de nous ruer dans les problèmes d’incompatibilités entre
les différents packages.
– Anaconda propose aussi un outil de gestion de packages
appelé Conda. Ce dernier permettra de mettre à jour et installer
facilement les librairies dont on aura besoin pour nos
développements.

Anaconda
• Pour l’usage du big data et du Machine Learning, on a
généralement besoin des librairies suivantes :
– NumPy
– SciPy
– Matplotlib
– Pandas
– Scikit-learn
– Statsmodels

noteBook Jupyter
• Jupyter est une application web utilisée pour programmer
dans plus de 40 langages de programmation,
dont: Python, Julia, Ruby, R, ou encore Scala
• C’est une interface web dans laquelle vous pouvez taper du code
Python, l'exécuter et voir directement les résultats, y compris une
visualisation à l'aide de graphiques.
• Ce type de notebooks sont utilisés en science des
données pour explorer et analyser des données.

160813-technology-template-16x9.pptx

160813-technology-template-16x9.pptx

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie 160813-technology-template-16x9.pptx

Ähnlich wie 160813-technology-template-16x9.pptx (20)

160813-technology-template-16x9.pptx