Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordinateurs

Université des sciences et de la technologie
Houari Boumediene
Soutenance Master Réseaux et Systèmes Distribués
Parallélisation d'algorithmes de graphes avec
MapReduce sur un cluster d'ordinateurs
Parallélisation d'algorithmes de graphes avec
MapReduce sur un cluster d'ordinateurs
Département d'informatique
Présenté par :
BENHADJ DJILALI Hadjer
AIT AMEUR Ouerdia Lydia
Proposé par :
MEHDI-SILHADI Malika
2

Plan :Plan :
 Le modèle MapReduce
 Branch and Bound
 Flow Shop de permutation
 Conception et implémentation d'un B&B sur hadoop Mapeduce
 Tests et résultats
 Conclusion et perspective
 Le Framework Hadoop
3
 Contexte et problématique
 Défis et contraintes rencontrées

4
Contexte etContexte et
problématique :problématique :
 On assiste actuellement à l'apparition de gros
volumes de données structurées et surtout non
structurées sur le web et dans les entreprises, on
parle de BigData, pour les analyser d'une façon
efficace et rapide Google a proposé un modèle
appelé MapReduce. Deux opérations map et reduce
permettant de paralléliser le traitement font sur des
données de grande taille et distribuées sur les
nœuds d'un cluster. Ce modèle a été ensuite adapte
par beaucoup d'entreprises ayant des volumes
importants de données à analyser pour sa flexibilité
et ça facilite d'utilisation. C'est aussi devenu la
technologie la plus utilisée sur le cloud.
 La question ici est de voir si ce modèle pourrait bien être utilise pour le cas
des applications qui sont orientes calcul. Particulièrement On s'intéresse
ici a la parallélisation d'un algorithme d'optimisation exacte appelé Branch
and Bound et qui est base sur une structure d'arbre appelé arbre de
recherche afin d‘énumérer toutes les solutions de l'espace de recherche.
cet algorithme a été largement étudié dans la littérature et puiseurs
stratégies de parallélisation ont été proposées et implémentées pour
divers types d'architectures parallèles (clusters, grilles, GPUs). Ici on
s'intéresse a l'adaptation de ces stratégies traditionnelles pour une
exécution sur un cluster Mapreduce hadoop pour la résolution du problème
d'optimisation combinatoire flow shop de permutation.

Le modèleLe modèle MapReduce:MapReduce:
5
Clien
t
Job
MapReduc
e
Partie de
job Partie de
job
Données
en entrée
Données
en sortie
Map
Map
Map
Reduc
e
Reduc
e
Le client soumit un
job MapReduce
MapReduce décompose le
job en Map et Reduce
opérations

6
Le modèleLe modèle MapReduce:MapReduce:

7
Le Framework Hadoop :Le Framework Hadoop :
Calcul
(MapReduce)
Stockage
(HDFS)
Nœud
maître
Nœud
esclave
Calcul
(MapReduce)
Stockage
(HDFS)
Responsable
d’ organiser le calcul
qui devrait être
planifier sur les
nœuds esclaves
Responsable de
partitionner les
données entre les
nœuds esclaves
et de garder
trace de leur
localisation
Rajouter aux
nœuds esclaves
plus de stockage
et de capacité
de traitement
Nœud
esclave
Nœud
esclave
Calcul
(MapReduce)
Calcul
(MapReduce)
Stockage
(HDFS)
Stockage
(HDFS)
Architecture de hadoop :

8
Le Framework Hadoop :Le Framework Hadoop :
Program
me
client
Soumission du job JobTrace
r
NameNod
e
Map()
Blo
cBlo
cBlo
cBlo
c
TaskTracerDataNode
M1
M2 TaskTrace
r
TaskTrac
er
M3
Lecture
TaskTrac
er
R1
R2
DataNode
TaskTrac
er
Lectur
e
Reduce
()
DFS données
de sortie
DFS données
d’entrée
Phase Map Phase
Fichier
1
Fichier
2
Exécution d’un job MapReduce sur
Hadoop:

Branch and Bound :Branch and Bound :
9
 L’algorithme Branch and Bound est un algorithme de graphe d’une structure
d’arbre.
 L’algorithme Branch and Bound est l’une des méthodes les plus efficaces pour la
résolution exacte des problèmes d’optimisation combinatoire.
 Il effectue une énumération implicite de l’espace de recherche ce qui réduit
considérablement le temps de calcul nécessaire pour explorer l’ensemble de
l’espace de recherche
Il se base sur 3 opérations :
Séparation
Evaluation
Elagage
 La borne supérieure représente le coût de la meilleure solution trouvée actuellement,
elle est initialisée soit a plus l'infini pour un problème de minimisation ou à une bonne
solution trouvée par une heuristique afin de gagner plus de temps en permettant
l‘élagage des noeuds inintéressant dés le début de la recherche.
 La borne inférieure représente le cout d’un nœud son évaluation.

10
11
00
11
22
11
44
11
77
11
66
11
44
11
55
1818 1919 2020
1919
Elagage :Elagage : Elaguer un nœud qui possède une
borne
Séparation :Séparation : Séparer le problème en sous
problèmes
Nœud non générés et non explorés
Solution complète
11
66
Parcours par largeur
Parcours par
profondeur

11
Branch and Bound parallèle les modèles les plus
utilisés :
Modèle multiparamètrique
parallèle
Modèle parallèle de l’exploration
de l’arbre
Modèle d’évaluation parallèle
des limites

12
Contribution
:
 Nous avons implémenté un Branch and Bound séquentiel avec
deux stratégies de parcours : par largeur et par profondeur.
 On a parallélisé les deux stratégies de parcours suivant le
modèle parallèle de l’exploration de l’arbre synchrone et
asynchrone avec Mapreduce sous hadoop dans un
environnement distribué (cluster) que nous détaillerons par la
suite.
Adaptation de B&B avec MapReduce :

Flow Shop de permutation :Flow Shop de permutation :
MachinMachin
ee
11
MachinMachin
ee
22
MachinMachin
ee
MM
MachinMachin
ee
33
Job1
Job2
Job3
.
.
.
.
.
.
.
JobN
 Tout les jobs doivent passer sur toute les machines de 1 à m avec le même ordre de
passage.
 Une machine ne peut traiter qu'une seule tâche à la fois.
 L’espace de recherche de la / les solution est n!.
 Les solutions sont des permutation de taille N.
13

Flow Shop de permutation :Flow Shop de permutation :
14
La borne inférieure :
Nous avons utilisé la borne inférieure de B.J. Legwag et Al qui se base sur la solution
optimale de Jackson Mitten.

Conception et implémentationConception et implémentation d'und'un
B&BB&B sur hadoop Mapeduce:sur hadoop Mapeduce:
15
N
Input
HDFS
Maitre
Les esclaves
Division de travail :

16
K KK KK
Lancer K Map qui
s’exécute en parallèle
Lancer K Map qui
Lancer K Map qui
Lancer K Map qui
Lancer K Map qui
N Map qui s’exécute en parallèle
Réception des données et lacement des Map pour les esclaves :

17
11 22 33 NN44
Clé/Racine Clé/Racine Clé/Racine Clé/Racine Clé/Racine
Sous arbre de
recherche 4
Sous arbre de
recherche 2
Sous arbre de
recherche 3
Sous arbre de
recherche 1
Sous arbre de
recherche N
………………..
………………..
Sous arbres de
recherches :

18
Nombre
de Job
N
Nombre de machine M
Racine /Clé
Feuilles
Ordonnancement
partiel
Permutation de niveau 1
Permutation de
niveau 2
Sous arbre
:

1919
Mise
À
jours
Mise à jour
de niveau k
Nœuds de niveau k
Feuilles, nœuds
de niveau N
Parcours par profondeur :
B&BB&B sur hadoop MapReduce:sur hadoop MapReduce:

202020
Parcours par largeur :

21
Défis et contraintes rencontrées :Défis et contraintes rencontrées :
 Problèmes internes liée a l’architectures de hadoop des pannes de certaine
composant.
 Hadoop utilise des types de données simple propre a lui qui rend difficile la
manipulation des clés et des valeurs.
 La non-inter fonctionnalité de certaines objet entre les versions de hadoop.
 Hadoop ne possède pas de mécanisme pour gérer des variable globale qui
vont être utiliser par tous les mappeurs pour cette raison on à utiliser un fichier
partagé pour la mise a jours.
 Hadoop ne laisse pas la main sur la taches de divisons de donnés entre les
esclaves.
 Hadoop ne fait l’équilibre de charge entre les nœuds esclaves qui chôme et qui
travail encore il ne y’a pas un moyen de redistribuée les données pour les
esclaves qui chôme.
 La taille d’un bloc de hadoop et 64 /128 MB ce qui n’est pas adapté au calcul
simple de petite taille de données pour cela on a généré des fichiers.
 La configuration de hadoop.

22
Tests et Résultats :Tests et Résultats :
Outils et environnements de
travail :
 Nous avons travaillé avec Hadoop d’apache.
 Nous avons utilisé Ide Eclipse pour le développement en langage java.
 Nous avons fait les tests sur nos machines local cluster SingleNode.
 Nous avons fait les tests dans le cluster IBN Badis où on a un maitre et 4
esclaves.
 Nous avons utilisé des benchmarks artificiels extraits des benchmarks de E.
Taillard.

Taille de
benchmark
Borne
supérieure
Makespa
n
Permutation
6 – 5 profondeur 1278/614/612 612 5, 3, 1, 0, 2, 4
6 – 5 largeur 1278/614/612 612 5, 3, 1, 0, 2, 4
7 – 5 profondeur 1278/667/665 665 5,4,2,6,3,1,0
7 – 5 largeur 1278/667/665 665 5,4,2,6,3,1,0
8 – 5 profondeur 1278/706/704 704 2,5,0,3,1,7,4,6
8 - 5 largeur 1278/706/704 704 2,5,0,3,1,7,4,6
23
Test de validation :

24
Taille de
benchmark
Makespan Permutation
Temps
d’exécution
(ms)
6 – 5 profondeur 612 5, 3, 1, 0, 2, 4 6919
6 – 5 largeur 612 5, 3, 1, 0, 2, 4 8428
7 – 5 profondeur 665 5,4,2,6,3,1,0 8463
7 – 5 largeur 665 5,4,2,6,3,1,0 8375
8 – 5 profondeur 704 2,5,0,3,1,7,4,6 9452
8 - 5 largeur 704 2,5,0,3,1,7,4,6 /
Test dans un cluster singlenode :

25
Tests et Résultats (3) :Tests et Résultats (3) :
Taille de
benchmark
Makespan Permutation
Temps
d’exécution
(ms)
6 – 5 profondeur 612 5, 3, 1, 0, 2, 4 8047
6 – 5 largeur 612 5, 3, 1, 0, 2, 4 3543
7 – 5 profondeur 665 5,4,2,6,3,1,0 9493
7 – 5 largeur 665 5,4,2,6,3,1,0 3715
8 – 5 profondeur 704 2,5,0,3,1,7,4,6 11752
8 - 5 largeur 704 2,5,0,3,1,7,4,6 4707
Test dans un cluster IBN Badis :

Conclusion et perspective :Conclusion et perspective :
26
Malgré les défis et contraintes cités précédemment notre implémentation a bien marché. On
n’a pas pu exécuter la grande instance de E.Taillard car 4 nœuds n'est pas suffisant.

Merci pourMerci pour
votrevotre
attentionattention
Des questions
27

Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordinateurs

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordinateurs

Ähnlich wie Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordinateurs (20)

Mehr von Hadjer BENHADJ DJILALI

Mehr von Hadjer BENHADJ DJILALI (6)

Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordinateurs

Hinweis der Redaktion