MapReduce framework pour le traitement parallèle de trés grand quantité de données, on à proposé integration de algorithme spésifique pour SDDS appelé Range Partitionning(RP*)
Cette proposition assuré ordonocement dynamique de données & optimisé phase intermidiare entre Map et Reduce
1. MapReduceRP*
Map
Reduce
RP* Framework pour le traitement
parallèle de très grande
quantité de données
Encadrer par:Mr.ARIDJ Mohamed
Réaliser par:AMEUR Izzeddine
Juillet 2014
5. MapReduceRP*
Schéma logique d’exécution
MapReduce
« Map »: générer un ensemble (clé/valeur) intermédiaire.
« Reduce »:combine toutes les valeurs associé à la même clé
intermédiaire
Données
R
E
D
U
C
E
M
A
P
Résultat
Split 0
Split 1
Split 2
Split 3
Split 4
4
8. MapReduceRP*
Structures de données classiques
Limite sur les performances d'accès
Vulnérabilité aux pannes
Scalabilité et Disponibilité
Impossible pour un grand nombre de
clients
Serveurs
Clients
Répertoire
d'accès
7
9. MapReduceRP*
Multi-ordinateurs
Une collection d'ordinateurs,
Stations de travail, interconnectés
par un réseau informatique (MAN,
LAN, WAN)
Réseau
Besoin de Systèmes de Stockage
Distribués et à Haute Disponibilité
8
12. MapReduceRP*
La distribution des données
Utiliser algorithme distribition par
intervalle RP* « Range Partitioning »
Basé sur paradigme B-arbres et intervalles
(fichier ordonnée + accès rapide)
Admettant les requêtes à intervalles
Garantie de bonnes performances
11
13. MapReduceRP*
Algorithme RP*
Famille des SDDS, appelée RP*
(Range Partitioning) : RP*N, RP*C et
RP*S
RP*N :utilisation exclusive du Multicast
RP*C :c’est un fichier RP*N avec une image au
niveau de chaque client. Utilisation de Unicast et
Multicast
RP*S : c’est un fichier RP*C + un index distribué
au niveau des serveurs indexant toutes les cases.
Élimine le multicast.
12
14. MapReduceRP*
Algorithme d'éclatement d'une case
1/ Déterminer (Cm) la clé de l'enregistrement
du milieu de la case de débordement
2/ Créer une nouvelle case j
3/ Déterminer l'en-tête de la case j
λj := Cm ; Copier dans la case j les
enregistrements de la case i avec la clé C>Cm
4/ Modifier l'en-tête de la case i
Effacer les enregistrements de la clé C>Cm
13
15. MapReduceRP*
Exemple
Évolution d’un fichier RP*N avec des
enregistrements de clé
alphanumérique et pour b =4.
inséré clé a
to
the
of
and
+
-
of
and
a
of
-
to
the
+
of
Règle 1
Règle 2
Règle 3
Règle 4
14
17. MapReduceRP*
Solutions pour la distribution de
données par intervalle
Soumettre un job
MapReduce
Utilisateur
Input
Data
Output
Data
Algorithme
RP*
Map
Map
Map
Reduce
Reduce
Reduce
Sortir Map Sortir RP*
16
23. MapReduceRP*
Requête simple
Coté client :Envoyée à l’aide d’un message
Multicast. Reçue par tous les serveurs.
Coté serveur : Chaque serveur S, d’intervalle
[, ], procède comme suit :
Si clé « c » [, ] alors S exécute la requête,
puis envoie éventuellement une réponse au client
à l’aide d’un message Unicast, sinon ignore la
requête
Cette réponse contient le résultat de l’exécution
de la requête( par exemple : l’enregistrement de
clé « c » trouvé avec succès )
22
24. MapReduceRP*
Requête à intervalle
Il s’agit de la recherche de l’ensemble des
enregistrements de clés « c » appartenant à un
intervalle donné [a, b] (a <b)
Elle est envoyée à tous les serveurs à l’aide d’un
message Multicast.
Elle est traitée sur chaque serveur d’intervalle
(, ] tel que (, ] [a, b] {}.
Les enregistrements sélectionnés sont ensuite
envoyés au client .
23
31. MapReduceRP*
Conclusion
Nos travaux ont porté sur le couplage des
algorithmes SDDS avec paradigme MapReduce,
et afin de profiter au maximum des ressources de
stockage et de traitement de ces réseaux
d’ordinateurs il faut assurer que les données sont
stockées de façon ordonnée.
30
32. MapReduceRP*
Perspectives
Implémenter d’autres variantes de RP* tel que : la
variante RP*c, RP*s
Implémenter notre système avec une base de
données NoSql
L’adaptation d’un outil en ligne permet ordonné
donnée de façon périodiquement
31