SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
1©	Cloudera,	Inc.	All	rights	reserved.
Lei	Xu		|	Software	Engineer	/	HDFS	Team
The	Elephant	on	the	Cloud
2©	Cloudera,	Inc.	All	rights	reserved.
About	Me
• Lei	Xu	(徐磊)	
• HDFS	team	member	in	Cloudera
• lei@cloudera
• Apache	Hadoop	Committer	
• @eddyxu
• PhD	from	University	of	Nebraska-Lincoln.
• 主要研究分布式文件系统, Linux本地文件系统在多核的优化
• 创建了VSFS:	 常驻内存的分布式,可搜索的文件系统
• ~10年的分布式系统开发研究经验
3©	Cloudera,	Inc.	All	rights	reserved.
Hadoop	DFS
• Hadoop / HDFS最初是基于Google File	System所设计的分布式系统
• GFS设计于2000年早期
• 廉价的PC 级别硬件
• 单一机房
• 大吞吐量(High Throughput),高延迟(High Latency)
• HDFS	负责数据的
• 高可用性(High Availability)
• 访问局部性(Locality)
4©	Cloudera,	Inc.	All	rights	reserved.
5©	Cloudera,	Inc.	All	rights	reserved.
目前其他系统
• HDFS	Ozone
• Alluxio/Tachyon
6©	Cloudera,	Inc.	All	rights	reserved.
新的Hadoop 部署生态
• 公有云
• Amazon	AWS
• Microsoft	Azure
• Google	Cloud
• Aliyun
• Amazon	EMR
• 传统的中央存储
• EMC	DSSD,	EMC	Isilon
• HGST	Active	Archive	System
7©	Cloudera,	Inc.	All	rights	reserved.
8©	Cloudera,	Inc.	All	rights	reserved.
新型部署的特点
• HDFS将Block管理外包给第三方服务
• 理论上可以支持无限的文件
• 小文件/大量读写的问题都得以解决
• HDFS	提供大数据应用统一的访问层
• HDFS	FileSystem Interface
• 后端存储服务通常有一致的访问时间
• 比如DSSD, Pure Storage 集中SSD存储,
• 或者云存储(Amazon	S3,	Aliyun OSS)
• 失去了局部性
• 没有访问速度区别
9©	Cloudera,	Inc.	All	rights	reserved.
HDFS	on	Cloud
• 趋势: 数据已经在云上
• “Source	of	truth”	-- Netflix	[1]
• 为公有云优化:
• 在云上搭建HDFS可以为HDFS带来
• 弹性伸缩性
• HDFS 可以为Cloud带来:
• 丰富的大数据生态系统
• 强一致性
• 成熟的数据监管
[1].	S3mper:	Consistency	in	the	Cloud.
10©	Cloudera,	Inc.	All	rights	reserved.
现有的解决方案
• HDFS	Cloud	Connectors
• 成熟的方案:
• Amazon	S3:		S3A	(	HADOOP-11571	)
• Microsoft	Azure WASB	(	HADOOP-9629	)
• Windows	Azure	Storage	– Blob
• 积极研发中的方案:
• Microsoft	Azure	Data	Lake (HADOOP-12666)
• Microsoft	Azure	as	external	data	source	(HDFS-9806).
• Aliyun OSS	HadoopConnector	(HADOOP-12756)
11©	Cloudera,	Inc.	All	rights	reserved.
三种主要公有云部署形式,	之一
• 直接在虚拟机/云上部署Hadoop集群
• 与直接在物理机器上部署Hadoop模式几乎完全一致
• 每个DataNode都建议挂载永久存储设备(i.e.	AWS	EBS)
• 需要注意的是:
• 通常HA	NameNode,QJM,ZooKeeper等需要保证部署在不同物理机器上
或者AvailabilityZone里
• 保证真正意义的HA
• 优点: 传统的安装经验可以直接使用
• 缺点: 利用率低,人为干预高,	难于做性能诊断
12©	Cloudera,	Inc.	All	rights	reserved.
云部署之二
• Hadoop 作为运算集群
• 数据存储在第三方对象存储服务商
• 通过HDFScloud	connector	来访问云存储中数据
• AmazonS3/ MicrosoftAzure / Google CloudStorage connectors
• HDFS 作为缓存区和工作区
• 优点: 较少的维护HDFS集群的烦恼
• 缺点:
• 每次做数据分析都需要导入导出数据
• 违背了Hadoop的”Move	Computation	to	Data“的原则
13©	Cloudera,	Inc.	All	rights	reserved.
Hadoop	Cloud	Connectors
Amazon	S3	/	Azure	Blob	
Store
Hadoop	Cluster
On	Cloud
2
3
14©	Cloudera,	Inc.	All	rights	reserved.
云部署之三
• Hadoop直接操作后端Shared Storage
• 多个解决方案正在积极开发中
• Microsoft	Azure	Data	Lake
• EMC	DSSD
• Etc.
• 利用后端shared storage可以被所有DataNode访问的特性
• 由DataNode充当代理来访问后端的存储
• 对上层应用(Hbase,Hive,Impala等)透明
15©	Cloudera,	Inc.	All	rights	reserved.
Elastic	HDFS	on	Amazon S3
16©	Cloudera,	Inc.	All	rights	reserved.
Elastic	HDFS	on Amazon	S3
• 传统HDFS的运营难处在于:
• 难于简单的扩大缩小集群
• 由于固定的Block到DN的关系,变更集群大小需要大量的数据迁移工作
(Decommision/Rebalance)
• 通常为了存储而非计算来设计集群的大小
• 易造成低利用率
17©	Cloudera,	Inc.	All	rights	reserved.
Elastic	HDFS	on Amazon	S3
• 设计目标:
• 允许Hadoop上层应用直接访问S3
• 提供数据的强一致性(Strong	Consistency)	访问
• 一次性的运算集群(DisposableHadoopCluster)
• 集群规模可以弹性伸缩(Elastic	Scale	Out	/	In)
18©	Cloudera,	Inc.	All	rights	reserved.
Elastic	HDFS	on Amazon	S3
• 数据
• 永久数据保存在S3上,保证
• 99.999999999	%	持久性(Durability)
• 99.99 % 可用性(Availability)
• HDFS 无需用3份副本
• HDFS	DataNode 作为Proxy来访问数据,提供HDFS语义
19©	Cloudera,	Inc.	All	rights	reserved.
Elastic	HDFS	on Amazon	S3
• 元数据(Metadata)
• 在 Heterogeneous	Storage (HDFS-2832)
• 加入一种新的存储类型(Storage Type):SHARED
• NameNode无需保证Block到DataNode的关联性
• 无需BlockManager	和full blockreport
• 有效的减少NameNode memory	footprint,	Garbage Collection,RPC	
throughput
• NameNode可将Client导向任意DataNode来访问S3数据
• 在改变HadoopCluster大小后,不需要再平衡数据(Rebalance)
20©	Cloudera,	Inc.	All	rights	reserved.
Elastic HDFS架构
NN
DN DN DN DN DN …...
Elastically scale out
Amazon S3
21©	Cloudera,	Inc.	All	rights	reserved.
1. HDFS	Client	向NN发出写请求,NN
随机返回一个DN
2. Client 将数据写入DN1
3. DN1将数据首先写入本地的临时
目录中
4. 在一个Block完成以后,	DataNode
将数据推送到S3
Write	Pipeline
DN 1
NN
DN 2 DN 3
Amazon S3
22©	Cloudera,	Inc.	All	rights	reserved.
• 用户向NameNode 询问文件(/foo)的
位置
• NameNode返回任意DataNode (DN2).
• Client	访问DataNode (DN2)
• DN2从S3中读取数据,缓存在本地,
并返回给Client
Read	Pipeline
DN1
NN
DN2 DN3
Amazon S3
3: /bucket/blk_1234
C
23©	Cloudera,	Inc.	All	rights	reserved.
其他应用透明访问S3的数据
• 写入数据时:
• 应用直接通过Client-DataNode 协议
• 无需知道后端存储的具体细节
• 读取数据时:
• DataNode 缓存这份数据
• HDFS数据是不可更改(Immutable)
• 提供Client 数据访问局部性
• 方便任务调度和I/O优化(e.g.,Impala)
24©	Cloudera,	Inc.	All	rights	reserved.
Elastic	Scale	Out	/	In
• HDFS 集群的规模可以快速的扩张或者缩小
• NameNode具有详尽准确的DataNode信息
• 所有DataNode上的数据都是作为Staging和Cache data而存在的
• 新增的DataNode可以立即响应任意的读写请求
• 关闭DataNode等效于清空Cache
• HDFS集群的大小取决于
• 运算能力的需求
• 而不是存储能力的需求
25©	Cloudera,	Inc.	All	rights	reserved.
Apache	开源社区
• 欢迎将Hadoop的改进回馈给 Apache	开源项目.
• 一起来维护和培养Hadoop Ecosystem.
26©	Cloudera,	Inc.	All	rights	reserved.
FAQ

Weitere ähnliche Inhalte

Was ist angesagt?

云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路li luo
 
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Michael Zhang
 
Cloudera introduction
Cloudera introductionCloudera introduction
Cloudera introductionPhate334
 
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3redhat9
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Yang Guanjun
 
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering Ceph Community
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践drewz lin
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统Dai Jun
 
Use Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in SuningUse Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in SuningAlluxio, Inc.
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoyahdhappy001
 
Couchbase introduction - Chinese
Couchbase introduction - Chinese Couchbase introduction - Chinese
Couchbase introduction - Chinese Vickie Zeng
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 
Hadoop安裝 (1)
Hadoop安裝 (1)Hadoop安裝 (1)
Hadoop安裝 (1)銘鴻 陳
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局Alex Lau
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
阿里开源经验分享
阿里开源经验分享阿里开源经验分享
阿里开源经验分享Joshua Zhu
 

Was ist angesagt? (20)

云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
 
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
 
Cloudera introduction
Cloudera introductionCloudera introduction
Cloudera introduction
 
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
 
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
 
Hdfs
HdfsHdfs
Hdfs
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
 
Use Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in SuningUse Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in Suning
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
 
Couchbase introduction - Chinese
Couchbase introduction - Chinese Couchbase introduction - Chinese
Couchbase introduction - Chinese
 
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fastSomething about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 
Hadoop安裝 (1)
Hadoop安裝 (1)Hadoop安裝 (1)
Hadoop安裝 (1)
 
Dfs ning
Dfs ningDfs ning
Dfs ning
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
阿里开源经验分享
阿里开源经验分享阿里开源经验分享
阿里开源经验分享
 

Ähnlich wie HDFS-In-Cloud

Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsTrendProgContest13
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCDRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCYu-Chin Tsai
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big dataYuHsuan Chen
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術Yu Lung Shao
 
Docker初识
Docker初识Docker初识
Docker初识hubugui
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft UsersKuo-Chun Su
 
開發環境建置
開發環境建置開發環境建置
開發環境建置Shengyou Fan
 
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Hang Geng
 
賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報Wales Chen
 
分布式存储的元数据设计
分布式存储的元数据设计分布式存储的元数据设计
分布式存储的元数据设计LI Daobing
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现baggioss
 
易度云查看 - 产品介绍
易度云查看 - 产品介绍易度云查看 - 产品介绍
易度云查看 - 产品介绍changxing qi
 

Ähnlich wie HDFS-In-Cloud (20)

Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCDRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
Mesos intro
Mesos introMesos intro
Mesos intro
 
Hdfs
HdfsHdfs
Hdfs
 
Hdfs
HdfsHdfs
Hdfs
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
 
Docker初识
Docker初识Docker初识
Docker初识
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft Users
 
開發環境建置
開發環境建置開發環境建置
開發環境建置
 
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
 
賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報
 
分布式存储的元数据设计
分布式存储的元数据设计分布式存储的元数据设计
分布式存储的元数据设计
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现
 
大數據
大數據大數據
大數據
 
易度云查看 - 产品介绍
易度云查看 - 产品介绍易度云查看 - 产品介绍
易度云查看 - 产品介绍
 

HDFS-In-Cloud