SlideShare ist ein Scribd-Unternehmen logo
1 von 43
Zoghlami Manel
Ben Hmida Imen
Nefzaoui Lobna
17/05/2014 1M1MPDAM
 Introduction
 Composants de base du système
 HDFS
 Map Reduce
 Implémentations et outils bases sur Hadoop
 Relation entre le frame work Hadoop et le
concept BigData
 IBM lance son mobile, de stockage et Hadoop
offres pour les mainframes
 Conclusion
17/05/2014M1MPDAM 2
Introduction
17/05/2014 3M1MPDAM
 Hadoop est un framework Java libre destiné à
faciliter la création d'applications distribuées et
scalables.
 Il permet aux applications de travailler avec des
milliers de nœuds et des pétaoctets de données.
Hadoop a été inspiré par les
publications MapReduce, GoogleFS et BigTable de
Google.
 Hadoop a été créé par Doug Cutting et fait partie
des projets de la fondation logicielle Apache depuis
2009.
17/05/2014 4M1MPDAM
 Nécessité de traiter beaucoup de données
 Nécessité de paralléliser le traitement sur
multitude de processeurs
 Donne évolutivité avec du matériel de base à
faible coût
17/05/2014 5M1MPDAM
 Fonctionne sur du matériel de base pas cher
 Gère automatiquement la réplication des données
et l'échec de nœud
 Il fait le travail dur - vous pouvez vous concentrer
sur le traitement des données
 Enregistrement des coûts et le traitement de
données efficace et fiable
17/05/2014 6M1MPDAM
17/05/2014 7M1MPDAM
 Au commencement, deux publications Google :
 Google File System (GFS) : une solution évolutive
système de fichiers distribué pour les applications
de données intensives réparties
 MapReduce: Traitement des données simplifiée
sur les grands clusters
 Ces systèmes décrivent la nouvelle infrastructure
Google, et restent propriétaires.
17/05/2014 8M1MPDAM
 Pendant ce temps là, Doug Cutting, créateur de
Lucene et Nutch, cherche un framework pour
distribuer les calculs de graphes Nutch
 Il implémente les principes de GFS et MapReduce
dans Nutch
 Il est embauché par Yahoo! pour poursuivre ces
développements
 Yahoo donne Hadoop à la fondation Apache
17/05/2014 9M1MPDAM
Composants de base du système
17/05/2014 10M1MPDAM
 Hadoop se compose de deux systèmes : HDFS
et MapReduce
 Cinq types de process vont gouverner ces
systèmes
17/05/2014 11M1MPDAM
 Le Namenode est le process qui pilote HDFS :
il sait où sont stockées les données
 C'est lui qui orchestre les DataNodes
 Nécessite beaucoup de RAM
17/05/2014 12M1MPDAM
 Le SecondaryNamenode prends des
snapshots des logs du Namenode à
intervalles réguliers
 Ce n'est pas un backup du NameNode : il
peut aider à récupérer des données et
relancer un cluster, mais ça n'a rien
d'automatique
17/05/2014 13M1MPDAM
 Les Datanodes sont les noeuds sur lesquels
résident les données
 Ce sont eux qui traduisent les blocks HDFS en
fichiers sur disque
 En communication constante avec le
Namenode
17/05/2014 14M1MPDAM
 Le JobTracker pilote l'exécution des jobs sur
le cluster
 C'est lui qui assigne les tâches aux
TaskTrackers, et gèrent leur cycle de vie
 Il est également responsable de la gestion
des erreurs, et de la relance des jobs
17/05/2014 15M1MPDAM
 Les TaskTrackers exécute les jobs (Map et
Reduce)
 Ils communiquent au JobTracker l'état des
jobs
17/05/2014 16M1MPDAM
HDFS
17/05/2014 17M1MPDAM
 L'unité de stockage de base est le Block
(64Mb par défaut)
 Chaque block est répliqué sur plusieurs
nœuds
 HDFS est fault-tolerant : si un noeud tombe,
les autres noeuds peuvent continuer à servir
les fichiers
17/05/2014 18M1MPDAM
 HDFS est orienté batchs : pas adapté aux
traitements online
 HDFS est orienté « write once, read many
times » : pas de modifications arbitraires au
milieu d'un fichier
 HDFS n'est pas fait pour stocker beaucoup de
petits fichiers : trop de metadata à maintenir
17/05/2014 19M1MPDAM
 Supporte différents types de compressions :
GZIP,BZ, LZO
 Filesystem manipulable via Java, C…
 Hadoop supporte également d'autres types
de file systems : local, FTP…
17/05/2014 20M1MPDAM
17/05/2014 21M1MPDAM
 On peut stocker des données sous forme de
fichier texte standard
 Ou sous forme de fichier binaire optimisé
pour MapReduce, compressable, splittable : le
SequenceFile
 Existe aussi en version permettant des
lookups : le MapFile
17/05/2014 22M1MPDAM
Map Reduce
17/05/2014 23M1MPDAM
 MapReduce n'est pas un langage, c'est un
paradigme de programmation. L'idée est de
découper un traitement de données en deux
phases.
 La première phase est le Map : c'est là que
l'on va transformer les données en entrée
 La seconde phase est le reduce : on va y
aggréger les résultats du Map
17/05/2014 24M1MPDAM
 Le format de base des échanges entre map et
reduce est la paire clé / valeur
 La sérialisation des objets est gérée par
Hadoop, sous forme de Writable : pas de
sérialisation Java native
 Hadoop fournit des types primitifs
sérializables, mais on peut bien sûr fournir
ses propres types complexes
 La phase de shuffle, entre map et reduce, va
partitionner les données par clé
17/05/2014 25M1MPDAM
17/05/2014 26M1MPDAM
 Map :
<k1, v1> → list(k2,v2)
 Reduce :
<k2, list(v2)> → list(k3,v3)
17/05/2014 27M1MPDAM
 Tout commence par la définition d'un Job,
basé sur une Configuration, et sur des
paramètres utilisateurs:
17/05/2014 28M1MPDAM
 On donne à ce job des implémentations de
Mapper, Reducer, types des fichiers d'entrée
et sortie , types des paramètres.
17/05/2014 29M1MPDAM
 Le Mapper est très simple : on extrait l'url, et
on « émet » un compteur de 1
17/05/2014 30M1MPDAM
 Le Reducer additionne les valeurs obtenue
pour une même clé.
 Hadoop propose pour ce type de Reducer le
LongSumReducer.
17/05/2014 31M1MPDAM
 Si on veut travailler sur des types non
primitifs, on peut créer un
WritableComparable
17/05/2014 32M1MPDAM
 On utilise la commande hadoop pour lancer
et paramétrer son job
17/05/2014 33M1MPDAM
 L'utilisation d'Hadoop n'est pas réservée aux
jobs Java. Tout langage lisant STDIN /
STDOUT peut se brancher sur la Streaming
API : PHP, Ruby, Python...
 On va spécifier en paramètre les scripts à
exécuter lors des phases de map et reduce
17/05/2014 34M1MPDAM
Implémentations et
outils bases sur Hadoop
17/05/2014 35M1MPDAM
 Le système de base de données non-
relationnelles distribué HBase utilise le système
de fichiers HDFS pour le stockage de données.
Sa particularité d‘étre structuré pour pouvoir
gérer de grandes tables de données. Inspirée
également des publications de Google sur sa
base de données Big Table, elle a pour
caractéristique d‘étre une base de données
orientée colonnes.
 HBase est aujourd'hui largement utilisé par de
nombreuses grandes entreprises, comme
Facebook qui l'utilise depuis 2010 en
remplacement de Cassandra.
17/05/2014 36M1MPDAM
 Hive est un projet visant à assurer
l'indexation, l'accés et l'analyse de gros
volumes de données. Il permet de fournir une
infrastructure de datawarehouse, construite
sur la base du framework Hadoop.
 Cette implémentation dispose d'un langage
de requête particulier, HiveQL, utilisant des
tâches MapReduce pour accéder à des
données de manière distribuée.
 Initialement développé par Facebook, il fait
partie aujourd'hui de la fondation Apache et
est maintenu par des entreprises comme
Netflix et Amazon.
17/05/2014 37M1MPDAM
 Un autre projet de la fondation
Apache, Mahout, a pour objectif
de fournir une bibliothèque
permettant le développement
d'applications distribuées de
machine-learning. Cette
bibliothèque peut s'interfacer avec
des applications Hadoop et fournit
de nombreux algorithmes pouvant
s'exécuter sur des clusters de
machines.
17/05/2014 38M1MPDAM
 Dans le cadre de l'administration de
clusters et d'applications distribuées,
ZooKeeper, permet de configurer les
machines physiques et services
entrant dans le contexte
d'applications construites sur
Hadoop. Il s'agit également d'un
projet de la fondation Apache,
largement utilisé par les entreprises
gérant de gros volumes de données.
17/05/2014 39M1MPDAM
 Le projet Chukwa, construit également sur
Hadoop, permet l'analyse et le monitoring
des taches MapReduce. Celui-ci est
principalement utilisé pour l'analyse de logs
collectés via des plate-formes Web.
17/05/2014 40M1MPDAM
 Cloudera est une start-up de la Silicon
Valley, fondée par Jeff Hammerbach, ancien
de chez Facebook ainsi que des ingénieurs
de chez Yahoo ayant travaillé dans le
domaine du distribué sur les projets Nutch
et Hadoop.
 Depuis 2011, elle fournit une distribution
basée sur Unix, Cloudera CDH, embarquant
la version 1.0 de la bibliothèque Hadoop.
Les intérêts de cette distribution sont de
pouvoir déployer rapidement Hadoop sur
des machines (via le réseau), de manière
homogène, ce qui simplifie et accélére la
configuration et la mise en place de clusters
de machines dans les entreprises.
17/05/2014 41M1MPDAM
 Hadoop a été solution très efficace pour les
entreprises qui traitent des données à
perabytes.
 Il a résolu de nombreux problèmes dans
l'industrie liés à la grande gestion de données
et système distribué Comme il est open
source, il est adopté par les entreprises à
grande échelle..
17/05/2014 42M1MPDAM
17/05/2014M1MPDAM 43

Weitere ähnliche Inhalte

Was ist angesagt?

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introductionfredcons
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidAmal Abid
 

Was ist angesagt? (20)

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Hadoop
HadoopHadoop
Hadoop
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 

Andere mochten auch

Built-In Security for the Cloud
Built-In Security for the CloudBuilt-In Security for the Cloud
Built-In Security for the CloudDataWorks Summit
 
Information security in big data -privacy and data mining
Information security in big data -privacy and data miningInformation security in big data -privacy and data mining
Information security in big data -privacy and data miningharithavijay94
 
Big Data Security with Hadoop
Big Data Security with HadoopBig Data Security with Hadoop
Big Data Security with HadoopCloudera, Inc.
 
Treat your enterprise data lake indigestion: Enterprise ready security and go...
Treat your enterprise data lake indigestion: Enterprise ready security and go...Treat your enterprise data lake indigestion: Enterprise ready security and go...
Treat your enterprise data lake indigestion: Enterprise ready security and go...DataWorks Summit
 
Big Data and Security - Where are we now? (2015)
Big Data and Security - Where are we now? (2015)Big Data and Security - Where are we now? (2015)
Big Data and Security - Where are we now? (2015)Peter Wood
 
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...Kevin Minder
 
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise Users
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise UsersApache Knox Gateway "Single Sign On" expands the reach of the Enterprise Users
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise UsersDataWorks Summit
 
Troubleshooting Kerberos in Hadoop: Taming the Beast
Troubleshooting Kerberos in Hadoop: Taming the BeastTroubleshooting Kerberos in Hadoop: Taming the Beast
Troubleshooting Kerberos in Hadoop: Taming the BeastDataWorks Summit
 
Improvements in Hadoop Security
Improvements in Hadoop SecurityImprovements in Hadoop Security
Improvements in Hadoop SecurityDataWorks Summit
 
Apache Knox setup and hive and hdfs Access using KNOX
Apache Knox setup and hive and hdfs Access using KNOXApache Knox setup and hive and hdfs Access using KNOX
Apache Knox setup and hive and hdfs Access using KNOXAbhishek Mallick
 
Hadoop & Security - Past, Present, Future
Hadoop & Security - Past, Present, FutureHadoop & Security - Past, Present, Future
Hadoop & Security - Past, Present, FutureUwe Printz
 
Hdp security overview
Hdp security overview Hdp security overview
Hdp security overview Hortonworks
 
Hadoop Security Today & Tomorrow with Apache Knox
Hadoop Security Today & Tomorrow with Apache KnoxHadoop Security Today & Tomorrow with Apache Knox
Hadoop Security Today & Tomorrow with Apache KnoxVinay Shukla
 
Hadoop Internals (2.3.0 or later)
Hadoop Internals (2.3.0 or later)Hadoop Internals (2.3.0 or later)
Hadoop Internals (2.3.0 or later)Emilio Coppa
 
Hadoop and Data Access Security
Hadoop and Data Access SecurityHadoop and Data Access Security
Hadoop and Data Access SecurityCloudera, Inc.
 
OAuth - Open API Authentication
OAuth - Open API AuthenticationOAuth - Open API Authentication
OAuth - Open API Authenticationleahculver
 
Hadoop Security Architecture
Hadoop Security ArchitectureHadoop Security Architecture
Hadoop Security ArchitectureOwen O'Malley
 
HADOOP TECHNOLOGY ppt
HADOOP  TECHNOLOGY pptHADOOP  TECHNOLOGY ppt
HADOOP TECHNOLOGY pptsravya raju
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture EMC
 

Andere mochten auch (20)

Built-In Security for the Cloud
Built-In Security for the CloudBuilt-In Security for the Cloud
Built-In Security for the Cloud
 
Information security in big data -privacy and data mining
Information security in big data -privacy and data miningInformation security in big data -privacy and data mining
Information security in big data -privacy and data mining
 
Big Data Security with Hadoop
Big Data Security with HadoopBig Data Security with Hadoop
Big Data Security with Hadoop
 
Treat your enterprise data lake indigestion: Enterprise ready security and go...
Treat your enterprise data lake indigestion: Enterprise ready security and go...Treat your enterprise data lake indigestion: Enterprise ready security and go...
Treat your enterprise data lake indigestion: Enterprise ready security and go...
 
Big Data and Security - Where are we now? (2015)
Big Data and Security - Where are we now? (2015)Big Data and Security - Where are we now? (2015)
Big Data and Security - Where are we now? (2015)
 
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...
 
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise Users
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise UsersApache Knox Gateway "Single Sign On" expands the reach of the Enterprise Users
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise Users
 
Troubleshooting Kerberos in Hadoop: Taming the Beast
Troubleshooting Kerberos in Hadoop: Taming the BeastTroubleshooting Kerberos in Hadoop: Taming the Beast
Troubleshooting Kerberos in Hadoop: Taming the Beast
 
Improvements in Hadoop Security
Improvements in Hadoop SecurityImprovements in Hadoop Security
Improvements in Hadoop Security
 
Apache Knox setup and hive and hdfs Access using KNOX
Apache Knox setup and hive and hdfs Access using KNOXApache Knox setup and hive and hdfs Access using KNOX
Apache Knox setup and hive and hdfs Access using KNOX
 
An Approach for Multi-Tenancy Through Apache Knox
An Approach for Multi-Tenancy Through Apache KnoxAn Approach for Multi-Tenancy Through Apache Knox
An Approach for Multi-Tenancy Through Apache Knox
 
Hadoop & Security - Past, Present, Future
Hadoop & Security - Past, Present, FutureHadoop & Security - Past, Present, Future
Hadoop & Security - Past, Present, Future
 
Hdp security overview
Hdp security overview Hdp security overview
Hdp security overview
 
Hadoop Security Today & Tomorrow with Apache Knox
Hadoop Security Today & Tomorrow with Apache KnoxHadoop Security Today & Tomorrow with Apache Knox
Hadoop Security Today & Tomorrow with Apache Knox
 
Hadoop Internals (2.3.0 or later)
Hadoop Internals (2.3.0 or later)Hadoop Internals (2.3.0 or later)
Hadoop Internals (2.3.0 or later)
 
Hadoop and Data Access Security
Hadoop and Data Access SecurityHadoop and Data Access Security
Hadoop and Data Access Security
 
OAuth - Open API Authentication
OAuth - Open API AuthenticationOAuth - Open API Authentication
OAuth - Open API Authentication
 
Hadoop Security Architecture
Hadoop Security ArchitectureHadoop Security Architecture
Hadoop Security Architecture
 
HADOOP TECHNOLOGY ppt
HADOOP  TECHNOLOGY pptHADOOP  TECHNOLOGY ppt
HADOOP TECHNOLOGY ppt
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture
 

Ähnlich wie Hadoop

Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Hamza Ben Marzouk
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptxbely26
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docxIssamHamdi
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big DataAmal Abid
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLMichaël Figuière
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosqlGDG Nantes
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxEddySHANGA
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 

Ähnlich wie Hadoop (20)

Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Hadoop
HadoopHadoop
Hadoop
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
Hadoop
HadoopHadoop
Hadoop
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQL
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosql
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Apache giraph
Apache giraphApache giraph
Apache giraph
 

Mehr von Institut supérieur des études technologiques de Radès (9)

Base des données réparties
Base des données répartiesBase des données réparties
Base des données réparties
 
Web services
Web servicesWeb services
Web services
 
RIA
RIARIA
RIA
 
Remote method invocation
Remote method invocationRemote method invocation
Remote method invocation
 
Architecture .NET
Architecture .NETArchitecture .NET
Architecture .NET
 
Middleware
MiddlewareMiddleware
Middleware
 
Mécanismes de sécurité(ios & android)
Mécanismes de sécurité(ios & android)Mécanismes de sécurité(ios & android)
Mécanismes de sécurité(ios & android)
 
Interface Definition Language
Interface Definition Language Interface Definition Language
Interface Definition Language
 
Architecture .net
Architecture  .netArchitecture  .net
Architecture .net
 

Hadoop

  • 1. Zoghlami Manel Ben Hmida Imen Nefzaoui Lobna 17/05/2014 1M1MPDAM
  • 2.  Introduction  Composants de base du système  HDFS  Map Reduce  Implémentations et outils bases sur Hadoop  Relation entre le frame work Hadoop et le concept BigData  IBM lance son mobile, de stockage et Hadoop offres pour les mainframes  Conclusion 17/05/2014M1MPDAM 2
  • 4.  Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et scalables.  Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.  Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. 17/05/2014 4M1MPDAM
  • 5.  Nécessité de traiter beaucoup de données  Nécessité de paralléliser le traitement sur multitude de processeurs  Donne évolutivité avec du matériel de base à faible coût 17/05/2014 5M1MPDAM
  • 6.  Fonctionne sur du matériel de base pas cher  Gère automatiquement la réplication des données et l'échec de nœud  Il fait le travail dur - vous pouvez vous concentrer sur le traitement des données  Enregistrement des coûts et le traitement de données efficace et fiable 17/05/2014 6M1MPDAM
  • 8.  Au commencement, deux publications Google :  Google File System (GFS) : une solution évolutive système de fichiers distribué pour les applications de données intensives réparties  MapReduce: Traitement des données simplifiée sur les grands clusters  Ces systèmes décrivent la nouvelle infrastructure Google, et restent propriétaires. 17/05/2014 8M1MPDAM
  • 9.  Pendant ce temps là, Doug Cutting, créateur de Lucene et Nutch, cherche un framework pour distribuer les calculs de graphes Nutch  Il implémente les principes de GFS et MapReduce dans Nutch  Il est embauché par Yahoo! pour poursuivre ces développements  Yahoo donne Hadoop à la fondation Apache 17/05/2014 9M1MPDAM
  • 10. Composants de base du système 17/05/2014 10M1MPDAM
  • 11.  Hadoop se compose de deux systèmes : HDFS et MapReduce  Cinq types de process vont gouverner ces systèmes 17/05/2014 11M1MPDAM
  • 12.  Le Namenode est le process qui pilote HDFS : il sait où sont stockées les données  C'est lui qui orchestre les DataNodes  Nécessite beaucoup de RAM 17/05/2014 12M1MPDAM
  • 13.  Le SecondaryNamenode prends des snapshots des logs du Namenode à intervalles réguliers  Ce n'est pas un backup du NameNode : il peut aider à récupérer des données et relancer un cluster, mais ça n'a rien d'automatique 17/05/2014 13M1MPDAM
  • 14.  Les Datanodes sont les noeuds sur lesquels résident les données  Ce sont eux qui traduisent les blocks HDFS en fichiers sur disque  En communication constante avec le Namenode 17/05/2014 14M1MPDAM
  • 15.  Le JobTracker pilote l'exécution des jobs sur le cluster  C'est lui qui assigne les tâches aux TaskTrackers, et gèrent leur cycle de vie  Il est également responsable de la gestion des erreurs, et de la relance des jobs 17/05/2014 15M1MPDAM
  • 16.  Les TaskTrackers exécute les jobs (Map et Reduce)  Ils communiquent au JobTracker l'état des jobs 17/05/2014 16M1MPDAM
  • 18.  L'unité de stockage de base est le Block (64Mb par défaut)  Chaque block est répliqué sur plusieurs nœuds  HDFS est fault-tolerant : si un noeud tombe, les autres noeuds peuvent continuer à servir les fichiers 17/05/2014 18M1MPDAM
  • 19.  HDFS est orienté batchs : pas adapté aux traitements online  HDFS est orienté « write once, read many times » : pas de modifications arbitraires au milieu d'un fichier  HDFS n'est pas fait pour stocker beaucoup de petits fichiers : trop de metadata à maintenir 17/05/2014 19M1MPDAM
  • 20.  Supporte différents types de compressions : GZIP,BZ, LZO  Filesystem manipulable via Java, C…  Hadoop supporte également d'autres types de file systems : local, FTP… 17/05/2014 20M1MPDAM
  • 22.  On peut stocker des données sous forme de fichier texte standard  Ou sous forme de fichier binaire optimisé pour MapReduce, compressable, splittable : le SequenceFile  Existe aussi en version permettant des lookups : le MapFile 17/05/2014 22M1MPDAM
  • 24.  MapReduce n'est pas un langage, c'est un paradigme de programmation. L'idée est de découper un traitement de données en deux phases.  La première phase est le Map : c'est là que l'on va transformer les données en entrée  La seconde phase est le reduce : on va y aggréger les résultats du Map 17/05/2014 24M1MPDAM
  • 25.  Le format de base des échanges entre map et reduce est la paire clé / valeur  La sérialisation des objets est gérée par Hadoop, sous forme de Writable : pas de sérialisation Java native  Hadoop fournit des types primitifs sérializables, mais on peut bien sûr fournir ses propres types complexes  La phase de shuffle, entre map et reduce, va partitionner les données par clé 17/05/2014 25M1MPDAM
  • 27.  Map : <k1, v1> → list(k2,v2)  Reduce : <k2, list(v2)> → list(k3,v3) 17/05/2014 27M1MPDAM
  • 28.  Tout commence par la définition d'un Job, basé sur une Configuration, et sur des paramètres utilisateurs: 17/05/2014 28M1MPDAM
  • 29.  On donne à ce job des implémentations de Mapper, Reducer, types des fichiers d'entrée et sortie , types des paramètres. 17/05/2014 29M1MPDAM
  • 30.  Le Mapper est très simple : on extrait l'url, et on « émet » un compteur de 1 17/05/2014 30M1MPDAM
  • 31.  Le Reducer additionne les valeurs obtenue pour une même clé.  Hadoop propose pour ce type de Reducer le LongSumReducer. 17/05/2014 31M1MPDAM
  • 32.  Si on veut travailler sur des types non primitifs, on peut créer un WritableComparable 17/05/2014 32M1MPDAM
  • 33.  On utilise la commande hadoop pour lancer et paramétrer son job 17/05/2014 33M1MPDAM
  • 34.  L'utilisation d'Hadoop n'est pas réservée aux jobs Java. Tout langage lisant STDIN / STDOUT peut se brancher sur la Streaming API : PHP, Ruby, Python...  On va spécifier en paramètre les scripts à exécuter lors des phases de map et reduce 17/05/2014 34M1MPDAM
  • 35. Implémentations et outils bases sur Hadoop 17/05/2014 35M1MPDAM
  • 36.  Le système de base de données non- relationnelles distribué HBase utilise le système de fichiers HDFS pour le stockage de données. Sa particularité d‘étre structuré pour pouvoir gérer de grandes tables de données. Inspirée également des publications de Google sur sa base de données Big Table, elle a pour caractéristique d‘étre une base de données orientée colonnes.  HBase est aujourd'hui largement utilisé par de nombreuses grandes entreprises, comme Facebook qui l'utilise depuis 2010 en remplacement de Cassandra. 17/05/2014 36M1MPDAM
  • 37.  Hive est un projet visant à assurer l'indexation, l'accés et l'analyse de gros volumes de données. Il permet de fournir une infrastructure de datawarehouse, construite sur la base du framework Hadoop.  Cette implémentation dispose d'un langage de requête particulier, HiveQL, utilisant des tâches MapReduce pour accéder à des données de manière distribuée.  Initialement développé par Facebook, il fait partie aujourd'hui de la fondation Apache et est maintenu par des entreprises comme Netflix et Amazon. 17/05/2014 37M1MPDAM
  • 38.  Un autre projet de la fondation Apache, Mahout, a pour objectif de fournir une bibliothèque permettant le développement d'applications distribuées de machine-learning. Cette bibliothèque peut s'interfacer avec des applications Hadoop et fournit de nombreux algorithmes pouvant s'exécuter sur des clusters de machines. 17/05/2014 38M1MPDAM
  • 39.  Dans le cadre de l'administration de clusters et d'applications distribuées, ZooKeeper, permet de configurer les machines physiques et services entrant dans le contexte d'applications construites sur Hadoop. Il s'agit également d'un projet de la fondation Apache, largement utilisé par les entreprises gérant de gros volumes de données. 17/05/2014 39M1MPDAM
  • 40.  Le projet Chukwa, construit également sur Hadoop, permet l'analyse et le monitoring des taches MapReduce. Celui-ci est principalement utilisé pour l'analyse de logs collectés via des plate-formes Web. 17/05/2014 40M1MPDAM
  • 41.  Cloudera est une start-up de la Silicon Valley, fondée par Jeff Hammerbach, ancien de chez Facebook ainsi que des ingénieurs de chez Yahoo ayant travaillé dans le domaine du distribué sur les projets Nutch et Hadoop.  Depuis 2011, elle fournit une distribution basée sur Unix, Cloudera CDH, embarquant la version 1.0 de la bibliothèque Hadoop. Les intérêts de cette distribution sont de pouvoir déployer rapidement Hadoop sur des machines (via le réseau), de manière homogène, ce qui simplifie et accélére la configuration et la mise en place de clusters de machines dans les entreprises. 17/05/2014 41M1MPDAM
  • 42.  Hadoop a été solution très efficace pour les entreprises qui traitent des données à perabytes.  Il a résolu de nombreux problèmes dans l'industrie liés à la grande gestion de données et système distribué Comme il est open source, il est adopté par les entreprises à grande échelle.. 17/05/2014 42M1MPDAM