SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Hadoop 0.23 MRv2 分析




                      nourlcn{at}gmail.com
                           2012-05-25
目录
•   背景
•   YARN 模块组织
•   编程模型
•   事件处理流程
•   本地化问题
•   性能
背景
Hadoop 0.23 的设计目标如下 :
可靠性
可用性
可扩展性 – 10000 节点 ,200000 core
向后兼容 – 更够保证用户程序不经过任何修改就可以运行在          0.23 上
热升级
可预见的时效性
资源利用率 – 不再区分 map/reduce 槽位 , 按照资源调度
支持其他编程模型 – 比如 MPI 可以运行在 0.23 上
支持有限的 , 生命周期较短的 service
YARN- 模块组织
YARN- 模块组织 -1
 ResourceManager
 管理和分配集群的资源 , 是集群的一个单点 , 通过 zookeeper 来保存状态以便 failover 。

 RM 主要包含两个功能组件 :Applications Manager(AsM) 和 Resource Scheduler (RS):
 •AsM 负责
      o  接收 client 的作业提交请求
      o  接收 AppMaster 请求 Container
      o  处理 AM 的 fail;
 •RS 负责在多个 application 之间分配资源 , 同样存在 queue,capacity 的限制 ,RS 调度的单位
 是 Resource Container, 一个 Container 是 memory, cpu, disk, network 的组合 , 在 0.23.0 中
 只支持 memory 。


 Yarn 支 持 可 插 拔 的 调 度 器 , 在 0.23.0 中 支 持 FiFoScheduler 和 CapacityScheduler 。
YARN- 模块组织 -2
NodeManager
•   部署在每个节点上的 slave, 负责启动 container, 并
    且监测进程组的资源使用情况。

•   NodeManager 上可以搭载一些简单的 service, 比如
    shuffle service 。
YARN- 模块组织 -3
ApplicationMaster
•每个 application 的 master, 负责和 ResourceManager 协商资源 , 将相
应的 Task 分配到合适的 Container 上执行 , 并监测 Task 的执行情况。
在和 RM 协商资源的时候 , 可以加上资源偏好 , 比如 MapReduceMaster
为了本地化会将 input-split 信息转化成对应的资源请求。


•ApplicationMaster
              将其 history 文件持久化到 HDFS 上 , 并在 AM 出问
题的时候 , 回放 history 文件 , 进行断点重启。
简单作业提交过程
1) 用户通过 JobClient 向 RM 提交作业

2) RM 为 AM 分配 Container, 并请求 NM 启动 AM

3) AM 启动后 , 向 RM 协商 Task 的资源

4) 获得资源后 ,AM 通知 NM 启动 Task

5) Task 启动后 , 向 AM 发送心跳 , 更新进度、状态和
出错信息
编程模型
•   基于事件驱动
•   抽象出 service 、 event 、 dispatcher 等概念
ResourceManager 事件流图
本地化问题
资源描述会加入 host/rack 信息 , 并且包含优先级信息 , 目前 0.23 支持 3
种优先 MAP,REDUCE,FAST-FAILMAP( 通过 shuffle 获知的 map 结果丢
失 , 重算 map), 一个典型的资源描述信息如下表 1 所示 :




AM 来负责向 yarn 申请资源 scheduler 可以理解的资源请求格式如下如上表。
性能
测试选取了 3 个版本 Hadoop-v2, 社区 Hadoop 1.0.1 (0.20.205.1),
社区 Hadoop 0.23; 测试了 map 中间结果不开压缩和 map 中间
结果开 Lzo 和 Snappy 压缩两种情况 , 每个 case 跑 3 次。




[ 结果不便透露,此图省略 ]
毕设问题
•   代码流程: submit 后跟踪不到代码


•   多个版本的代码共存( Shuffle )


•   调试问题
谢谢 ~ !

Weitere ähnliche Inhalte

Andere mochten auch

εξ αποστάσεως εκπαίδευση Rhino gold
εξ αποστάσεως  εκπαίδευση Rhino goldεξ αποστάσεως  εκπαίδευση Rhino gold
εξ αποστάσεως εκπαίδευση Rhino goldGeorge Exarchopoulos
 
Seminario Mexico Italia
Seminario Mexico ItaliaSeminario Mexico Italia
Seminario Mexico Italiacusimano
 
WesołYch śWiąT
WesołYch śWiąTWesołYch śWiąT
WesołYch śWiąTsobiana
 
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστική
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστικήεξ αποστάσεως εκπαίδευση υποδομή στη γραφιστική
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστικήGeorge Exarchopoulos
 
02-23-25 Audio slideshow lecture
02-23-25 Audio slideshow lecture02-23-25 Audio slideshow lecture
02-23-25 Audio slideshow lectureSung Woo Yoo
 
Dryad Paper Review and System Analysis
Dryad Paper Review and System AnalysisDryad Paper Review and System Analysis
Dryad Paper Review and System AnalysisJinGui LI
 
D I A B E T E S A N D B H R A M A R I D R S H R I N I W A S K A S H A L ...
D I A B E T E S  A N D  B H R A M A R I  D R  S H R I N I W A S  K A S H A L ...D I A B E T E S  A N D  B H R A M A R I  D R  S H R I N I W A S  K A S H A L ...
D I A B E T E S A N D B H R A M A R I D R S H R I N I W A S K A S H A L ...banothkishan
 
after ice rain in China
after ice rain in Chinaafter ice rain in China
after ice rain in ChinaShiva
 
εξ αποστάσεως εκπαίδευση τυπογραφική τέχνη
εξ αποστάσεως εκπαίδευση  τυπογραφική τέχνηεξ αποστάσεως εκπαίδευση  τυπογραφική τέχνη
εξ αποστάσεως εκπαίδευση τυπογραφική τέχνηGeorge Exarchopoulos
 
3. Analisi del Target Profit e del Margine di Sicurezza
3. Analisi del Target Profit e del Margine di Sicurezza3. Analisi del Target Profit e del Margine di Sicurezza
3. Analisi del Target Profit e del Margine di SicurezzaManager.it
 
Vray 3D max Εξ Αποστάσεως
Vray 3D max Εξ ΑποστάσεωςVray 3D max Εξ Αποστάσεως
Vray 3D max Εξ ΑποστάσεωςGeorge Exarchopoulos
 
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAtiConfesercenti Ravenna
 
Web Analytics - WHR 2012 - Guida pratica Google Analytics
Web Analytics - WHR 2012 - Guida pratica Google AnalyticsWeb Analytics - WHR 2012 - Guida pratica Google Analytics
Web Analytics - WHR 2012 - Guida pratica Google AnalyticsEnrico Ferretti
 
Google Analytics- Cos'è e come funziona?
Google Analytics- Cos'è e come funziona?Google Analytics- Cos'è e come funziona?
Google Analytics- Cos'è e come funziona?Giulia Forghieri
 
ECDL Level 2 - Introduction for students
ECDL Level 2 - Introduction for studentsECDL Level 2 - Introduction for students
ECDL Level 2 - Introduction for studentsDavid Drake
 

Andere mochten auch (17)

εξ αποστάσεως εκπαίδευση Rhino gold
εξ αποστάσεως  εκπαίδευση Rhino goldεξ αποστάσεως  εκπαίδευση Rhino gold
εξ αποστάσεως εκπαίδευση Rhino gold
 
Ajaxworld07
Ajaxworld07Ajaxworld07
Ajaxworld07
 
Seminario Mexico Italia
Seminario Mexico ItaliaSeminario Mexico Italia
Seminario Mexico Italia
 
WesołYch śWiąT
WesołYch śWiąTWesołYch śWiąT
WesołYch śWiąT
 
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστική
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστικήεξ αποστάσεως εκπαίδευση υποδομή στη γραφιστική
εξ αποστάσεως εκπαίδευση υποδομή στη γραφιστική
 
02-23-25 Audio slideshow lecture
02-23-25 Audio slideshow lecture02-23-25 Audio slideshow lecture
02-23-25 Audio slideshow lecture
 
Dryad Paper Review and System Analysis
Dryad Paper Review and System AnalysisDryad Paper Review and System Analysis
Dryad Paper Review and System Analysis
 
D I A B E T E S A N D B H R A M A R I D R S H R I N I W A S K A S H A L ...
D I A B E T E S  A N D  B H R A M A R I  D R  S H R I N I W A S  K A S H A L ...D I A B E T E S  A N D  B H R A M A R I  D R  S H R I N I W A S  K A S H A L ...
D I A B E T E S A N D B H R A M A R I D R S H R I N I W A S K A S H A L ...
 
after ice rain in China
after ice rain in Chinaafter ice rain in China
after ice rain in China
 
εξ αποστάσεως εκπαίδευση τυπογραφική τέχνη
εξ αποστάσεως εκπαίδευση  τυπογραφική τέχνηεξ αποστάσεως εκπαίδευση  τυπογραφική τέχνη
εξ αποστάσεως εκπαίδευση τυπογραφική τέχνη
 
Media representation key terms
Media representation key termsMedia representation key terms
Media representation key terms
 
3. Analisi del Target Profit e del Margine di Sicurezza
3. Analisi del Target Profit e del Margine di Sicurezza3. Analisi del Target Profit e del Margine di Sicurezza
3. Analisi del Target Profit e del Margine di Sicurezza
 
Vray 3D max Εξ Αποστάσεως
Vray 3D max Εξ ΑποστάσεωςVray 3D max Εξ Αποστάσεως
Vray 3D max Εξ Αποστάσεως
 
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti
[Giornate dell'E-Commerce 2015] Robi Veltroni e i ristoranti prenOTAti
 
Web Analytics - WHR 2012 - Guida pratica Google Analytics
Web Analytics - WHR 2012 - Guida pratica Google AnalyticsWeb Analytics - WHR 2012 - Guida pratica Google Analytics
Web Analytics - WHR 2012 - Guida pratica Google Analytics
 
Google Analytics- Cos'è e come funziona?
Google Analytics- Cos'è e come funziona?Google Analytics- Cos'è e come funziona?
Google Analytics- Cos'è e come funziona?
 
ECDL Level 2 - Introduction for students
ECDL Level 2 - Introduction for studentsECDL Level 2 - Introduction for students
ECDL Level 2 - Introduction for students
 

Ähnlich wie Hadoop 0.23 m_rv2_introduction

RockStor - A Cloud Object System based on Hadoop
RockStor -  A Cloud Object System based on HadoopRockStor -  A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on HadoopSchubert Zhang
 
1, OCP - architecture intro
1, OCP - architecture intro1, OCP - architecture intro
1, OCP - architecture introted-xu
 
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2redhat9
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍mysqlops
 
淘宝主备数据库自动切换
淘宝主备数据库自动切换淘宝主备数据库自动切换
淘宝主备数据库自动切换mysqlops
 
deep inside Sina App Engine cloud service
deep inside Sina App Engine cloud servicedeep inside Sina App Engine cloud service
deep inside Sina App Engine cloud servicecong lei
 
分布式系统日志处理调研
分布式系统日志处理调研分布式系统日志处理调研
分布式系统日志处理调研klandor
 
大众点评网的技术变迁之路
大众点评网的技术变迁之路大众点评网的技术变迁之路
大众点评网的技术变迁之路jeffz
 
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)Shanda innovation institute
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲84zhu
 
Redis在唯品会的应用实践.pdf
Redis在唯品会的应用实践.pdfRedis在唯品会的应用实践.pdf
Redis在唯品会的应用实践.pdfjaydenhu
 
Java 与 云计算
Java 与 云计算Java 与 云计算
Java 与 云计算kevin huang
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
Notes of jcip
Notes of jcipNotes of jcip
Notes of jcipDai Jun
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3redhat9
 
百度分布式数据实践与进展
百度分布式数据实践与进展百度分布式数据实践与进展
百度分布式数据实践与进展yp_fangdong
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum锐 张
 

Ähnlich wie Hadoop 0.23 m_rv2_introduction (20)

RockStor - A Cloud Object System based on Hadoop
RockStor -  A Cloud Object System based on HadoopRockStor -  A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on Hadoop
 
1, OCP - architecture intro
1, OCP - architecture intro1, OCP - architecture intro
1, OCP - architecture intro
 
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍
 
淘宝主备数据库自动切换
淘宝主备数据库自动切换淘宝主备数据库自动切换
淘宝主备数据库自动切换
 
deep inside Sina App Engine cloud service
deep inside Sina App Engine cloud servicedeep inside Sina App Engine cloud service
deep inside Sina App Engine cloud service
 
Sae
SaeSae
Sae
 
分布式系统日志处理调研
分布式系统日志处理调研分布式系统日志处理调研
分布式系统日志处理调研
 
大众点评网的技术变迁之路
大众点评网的技术变迁之路大众点评网的技术变迁之路
大众点评网的技术变迁之路
 
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)
[.Net开发交流会][2010.06.19]大众点评网的技术变迁之路(王宏)
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
 
Redis在唯品会的应用实践.pdf
Redis在唯品会的应用实践.pdfRedis在唯品会的应用实践.pdf
Redis在唯品会的应用实践.pdf
 
Java 与 云计算
Java 与 云计算Java 与 云计算
Java 与 云计算
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
Notes of jcip
Notes of jcipNotes of jcip
Notes of jcip
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3
 
百度分布式数据实践与进展
百度分布式数据实践与进展百度分布式数据实践与进展
百度分布式数据实践与进展
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
 

Hadoop 0.23 m_rv2_introduction

  • 1. Hadoop 0.23 MRv2 分析 nourlcn{at}gmail.com 2012-05-25
  • 2. 目录 • 背景 • YARN 模块组织 • 编程模型 • 事件处理流程 • 本地化问题 • 性能
  • 3. 背景 Hadoop 0.23 的设计目标如下 : 可靠性 可用性 可扩展性 – 10000 节点 ,200000 core 向后兼容 – 更够保证用户程序不经过任何修改就可以运行在 0.23 上 热升级 可预见的时效性 资源利用率 – 不再区分 map/reduce 槽位 , 按照资源调度 支持其他编程模型 – 比如 MPI 可以运行在 0.23 上 支持有限的 , 生命周期较短的 service
  • 5. YARN- 模块组织 -1 ResourceManager 管理和分配集群的资源 , 是集群的一个单点 , 通过 zookeeper 来保存状态以便 failover 。 RM 主要包含两个功能组件 :Applications Manager(AsM) 和 Resource Scheduler (RS): •AsM 负责 o 接收 client 的作业提交请求 o 接收 AppMaster 请求 Container o 处理 AM 的 fail; •RS 负责在多个 application 之间分配资源 , 同样存在 queue,capacity 的限制 ,RS 调度的单位 是 Resource Container, 一个 Container 是 memory, cpu, disk, network 的组合 , 在 0.23.0 中 只支持 memory 。 Yarn 支 持 可 插 拔 的 调 度 器 , 在 0.23.0 中 支 持 FiFoScheduler 和 CapacityScheduler 。
  • 6. YARN- 模块组织 -2 NodeManager • 部署在每个节点上的 slave, 负责启动 container, 并 且监测进程组的资源使用情况。 • NodeManager 上可以搭载一些简单的 service, 比如 shuffle service 。
  • 7. YARN- 模块组织 -3 ApplicationMaster •每个 application 的 master, 负责和 ResourceManager 协商资源 , 将相 应的 Task 分配到合适的 Container 上执行 , 并监测 Task 的执行情况。 在和 RM 协商资源的时候 , 可以加上资源偏好 , 比如 MapReduceMaster 为了本地化会将 input-split 信息转化成对应的资源请求。 •ApplicationMaster 将其 history 文件持久化到 HDFS 上 , 并在 AM 出问 题的时候 , 回放 history 文件 , 进行断点重启。
  • 8. 简单作业提交过程 1) 用户通过 JobClient 向 RM 提交作业 2) RM 为 AM 分配 Container, 并请求 NM 启动 AM 3) AM 启动后 , 向 RM 协商 Task 的资源 4) 获得资源后 ,AM 通知 NM 启动 Task 5) Task 启动后 , 向 AM 发送心跳 , 更新进度、状态和 出错信息
  • 9. 编程模型 • 基于事件驱动 • 抽象出 service 、 event 、 dispatcher 等概念
  • 11. 本地化问题 资源描述会加入 host/rack 信息 , 并且包含优先级信息 , 目前 0.23 支持 3 种优先 MAP,REDUCE,FAST-FAILMAP( 通过 shuffle 获知的 map 结果丢 失 , 重算 map), 一个典型的资源描述信息如下表 1 所示 : AM 来负责向 yarn 申请资源 scheduler 可以理解的资源请求格式如下如上表。
  • 12. 性能 测试选取了 3 个版本 Hadoop-v2, 社区 Hadoop 1.0.1 (0.20.205.1), 社区 Hadoop 0.23; 测试了 map 中间结果不开压缩和 map 中间 结果开 Lzo 和 Snappy 压缩两种情况 , 每个 case 跑 3 次。 [ 结果不便透露,此图省略 ]
  • 13. 毕设问题 • 代码流程: submit 后跟踪不到代码 • 多个版本的代码共存( Shuffle ) • 调试问题