Suche senden
Hochladen
HDFS-In-Cloud
•
0 gefällt mir
•
169 views
Lei Xu
Folgen
Melden
Teilen
Melden
Teilen
1 von 26
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2
redhat9
02.wls集群
02.wls集群
Meng He
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
Elastic search
Elastic search
Samchu Li
Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结
redhat9
Nosql三步曲
Nosql三步曲
84zhu
How We Prepared Etu Hadoop Competition 2014
How We Prepared Etu Hadoop Competition 2014
Yuen-Kuei Hsueh
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
Phate334
Empfohlen
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2
redhat9
02.wls集群
02.wls集群
Meng He
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
Elastic search
Elastic search
Samchu Li
Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结
redhat9
Nosql三步曲
Nosql三步曲
84zhu
How We Prepared Etu Hadoop Competition 2014
How We Prepared Etu Hadoop Competition 2014
Yuen-Kuei Hsueh
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
Phate334
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
li luo
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Michael Zhang
Cloudera introduction
Cloudera introduction
Phate334
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3
redhat9
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Yang Guanjun
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Community
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
drewz lin
Hdfs
Hdfs
jiang yu
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
Dai Jun
Use Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in Suning
Alluxio, Inc.
Ted yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
Couchbase introduction - Chinese
Couchbase introduction - Chinese
Vickie Zeng
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
ViSenze - Artificial Intelligence for the Visual Web
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
Hadoop安裝 (1)
Hadoop安裝 (1)
銘鴻 陳
Dfs ning
Dfs ning
Andy Shi
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
Alex Lau
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
James Chen
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
阿里开源经验分享
阿里开源经验分享
Joshua Zhu
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
TrendProgContest13
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
Weitere ähnliche Inhalte
Was ist angesagt?
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
li luo
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Michael Zhang
Cloudera introduction
Cloudera introduction
Phate334
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3
redhat9
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Yang Guanjun
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Community
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
drewz lin
Hdfs
Hdfs
jiang yu
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
Dai Jun
Use Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in Suning
Alluxio, Inc.
Ted yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
Couchbase introduction - Chinese
Couchbase introduction - Chinese
Vickie Zeng
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
ViSenze - Artificial Intelligence for the Visual Web
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
Hadoop安裝 (1)
Hadoop安裝 (1)
銘鴻 陳
Dfs ning
Dfs ning
Andy Shi
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
Alex Lau
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
James Chen
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
阿里开源经验分享
阿里开源经验分享
Joshua Zhu
Was ist angesagt?
(20)
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Cloudera introduction
Cloudera introduction
Bypat博客出品-服务器运维集群方法总结3
Bypat博客出品-服务器运维集群方法总结3
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
Ceph Day Beijing: Optimizations on Ceph Cache Tiering
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
Hdfs
Hdfs
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
Use Alluxio to Unify Storage Systems in Suning
Use Alluxio to Unify Storage Systems in Suning
Ted yu:h base and hoya
Ted yu:h base and hoya
Couchbase introduction - Chinese
Couchbase introduction - Chinese
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Hadoop安裝 (1)
Hadoop安裝 (1)
Dfs ning
Dfs ning
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
阿里开源经验分享
阿里开源经验分享
Ähnlich wie HDFS-In-Cloud
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
TrendProgContest13
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
Yu-Chin Tsai
What could hadoop do for us
What could hadoop do for us
Simon Hsu
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
Awei Hsu
Mesos intro
Mesos intro
dennis zhuang
Hdfs
Hdfs
baggioss
Hdfs
Hdfs
baggioss
Introduction to big data
Introduction to big data
YuHsuan Chen
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
Yu Lung Shao
Docker初识
Docker初识
hubugui
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
HDInsight for Microsoft Users
HDInsight for Microsoft Users
Kuo-Chun Su
開發環境建置
開發環境建置
Shengyou Fan
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Hang Geng
賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報
Wales Chen
分布式存储的元数据设计
分布式存储的元数据设计
LI Daobing
Hdfs原理及实现
Hdfs原理及实现
baggioss
大數據
大數據
brian401777
易度云查看 - 产品介绍
易度云查看 - 产品介绍
changxing qi
Ähnlich wie HDFS-In-Cloud
(20)
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
What could hadoop do for us
What could hadoop do for us
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
Mesos intro
Mesos intro
Hdfs
Hdfs
Hdfs
Hdfs
Introduction to big data
Introduction to big data
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
Docker初识
Docker初识
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
HDInsight for Microsoft Users
HDInsight for Microsoft Users
開發環境建置
開發環境建置
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報
分布式存储的元数据设计
分布式存储的元数据设计
Hdfs原理及实现
Hdfs原理及实现
大數據
大數據
易度云查看 - 产品介绍
易度云查看 - 产品介绍
HDFS-In-Cloud
1.
1© Cloudera, Inc. All rights reserved. Lei Xu | Software Engineer / HDFS Team The Elephant on the Cloud
2.
2© Cloudera, Inc. All rights reserved. About Me • Lei Xu (徐磊) • HDFS team member in Cloudera •
lei@cloudera • Apache Hadoop Committer • @eddyxu • PhD from University of Nebraska-Lincoln. • 主要研究分布式文件系统, Linux本地文件系统在多核的优化 • 创建了VSFS: 常驻内存的分布式,可搜索的文件系统 • ~10年的分布式系统开发研究经验
3.
3© Cloudera, Inc. All rights reserved. Hadoop DFS • Hadoop /
HDFS最初是基于Google File System所设计的分布式系统 • GFS设计于2000年早期 • 廉价的PC 级别硬件 • 单一机房 • 大吞吐量(High Throughput),高延迟(High Latency) • HDFS 负责数据的 • 高可用性(High Availability) • 访问局部性(Locality)
4.
4© Cloudera, Inc. All rights reserved.
5.
5© Cloudera, Inc. All rights reserved. 目前其他系统 • HDFS Ozone • Alluxio/Tachyon
6.
6© Cloudera, Inc. All rights reserved. 新的Hadoop 部署生态 • 公有云 •
Amazon AWS • Microsoft Azure • Google Cloud • Aliyun • Amazon EMR • 传统的中央存储 • EMC DSSD, EMC Isilon • HGST Active Archive System
7.
7© Cloudera, Inc. All rights reserved.
8.
8© Cloudera, Inc. All rights reserved. 新型部署的特点 • HDFS将Block管理外包给第三方服务 • 理论上可以支持无限的文件 •
小文件/大量读写的问题都得以解决 • HDFS 提供大数据应用统一的访问层 • HDFS FileSystem Interface • 后端存储服务通常有一致的访问时间 • 比如DSSD, Pure Storage 集中SSD存储, • 或者云存储(Amazon S3, Aliyun OSS) • 失去了局部性 • 没有访问速度区别
9.
9© Cloudera, Inc. All rights reserved. HDFS on Cloud • 趋势: 数据已经在云上 •
“Source of truth” -- Netflix [1] • 为公有云优化: • 在云上搭建HDFS可以为HDFS带来 • 弹性伸缩性 • HDFS 可以为Cloud带来: • 丰富的大数据生态系统 • 强一致性 • 成熟的数据监管 [1]. S3mper: Consistency in the Cloud.
10.
10© Cloudera, Inc. All rights reserved. 现有的解决方案 • HDFS Cloud Connectors • 成熟的方案: •
Amazon S3: S3A ( HADOOP-11571 ) • Microsoft Azure WASB ( HADOOP-9629 ) • Windows Azure Storage – Blob • 积极研发中的方案: • Microsoft Azure Data Lake (HADOOP-12666) • Microsoft Azure as external data source (HDFS-9806). • Aliyun OSS HadoopConnector (HADOOP-12756)
11.
11© Cloudera, Inc. All rights reserved. 三种主要公有云部署形式, 之一 • 直接在虚拟机/云上部署Hadoop集群 • 与直接在物理机器上部署Hadoop模式几乎完全一致 •
每个DataNode都建议挂载永久存储设备(i.e. AWS EBS) • 需要注意的是: • 通常HA NameNode,QJM,ZooKeeper等需要保证部署在不同物理机器上 或者AvailabilityZone里 • 保证真正意义的HA • 优点: 传统的安装经验可以直接使用 • 缺点: 利用率低,人为干预高, 难于做性能诊断
12.
12© Cloudera, Inc. All rights reserved. 云部署之二 • Hadoop 作为运算集群 •
数据存储在第三方对象存储服务商 • 通过HDFScloud connector 来访问云存储中数据 • AmazonS3/ MicrosoftAzure / Google CloudStorage connectors • HDFS 作为缓存区和工作区 • 优点: 较少的维护HDFS集群的烦恼 • 缺点: • 每次做数据分析都需要导入导出数据 • 违背了Hadoop的”Move Computation to Data“的原则
13.
13© Cloudera, Inc. All rights reserved. Hadoop Cloud Connectors Amazon S3 / Azure Blob Store Hadoop Cluster On Cloud 2 3
14.
14© Cloudera, Inc. All rights reserved. 云部署之三 • Hadoop直接操作后端Shared Storage •
多个解决方案正在积极开发中 • Microsoft Azure Data Lake • EMC DSSD • Etc. • 利用后端shared storage可以被所有DataNode访问的特性 • 由DataNode充当代理来访问后端的存储 • 对上层应用(Hbase,Hive,Impala等)透明
15.
15© Cloudera, Inc. All rights reserved. Elastic HDFS on Amazon S3
16.
16© Cloudera, Inc. All rights reserved. Elastic HDFS on Amazon S3 • 传统HDFS的运营难处在于: •
难于简单的扩大缩小集群 • 由于固定的Block到DN的关系,变更集群大小需要大量的数据迁移工作 (Decommision/Rebalance) • 通常为了存储而非计算来设计集群的大小 • 易造成低利用率
17.
17© Cloudera, Inc. All rights reserved. Elastic HDFS on Amazon S3 • 设计目标: •
允许Hadoop上层应用直接访问S3 • 提供数据的强一致性(Strong Consistency) 访问 • 一次性的运算集群(DisposableHadoopCluster) • 集群规模可以弹性伸缩(Elastic Scale Out / In)
18.
18© Cloudera, Inc. All rights reserved. Elastic HDFS on Amazon S3 • 数据 •
永久数据保存在S3上,保证 • 99.999999999 % 持久性(Durability) • 99.99 % 可用性(Availability) • HDFS 无需用3份副本 • HDFS DataNode 作为Proxy来访问数据,提供HDFS语义
19.
19© Cloudera, Inc. All rights reserved. Elastic HDFS on Amazon S3 • 元数据(Metadata) •
在 Heterogeneous Storage (HDFS-2832) • 加入一种新的存储类型(Storage Type):SHARED • NameNode无需保证Block到DataNode的关联性 • 无需BlockManager 和full blockreport • 有效的减少NameNode memory footprint, Garbage Collection,RPC throughput • NameNode可将Client导向任意DataNode来访问S3数据 • 在改变HadoopCluster大小后,不需要再平衡数据(Rebalance)
20.
20© Cloudera, Inc. All rights reserved. Elastic HDFS架构 NN DN DN
DN DN DN …... Elastically scale out Amazon S3
21.
21© Cloudera, Inc. All rights reserved. 1. HDFS Client 向NN发出写请求,NN 随机返回一个DN 2. Client
将数据写入DN1 3. DN1将数据首先写入本地的临时 目录中 4. 在一个Block完成以后, DataNode 将数据推送到S3 Write Pipeline DN 1 NN DN 2 DN 3 Amazon S3
22.
22© Cloudera, Inc. All rights reserved. • 用户向NameNode 询问文件(/foo)的 位置 •
NameNode返回任意DataNode (DN2). • Client 访问DataNode (DN2) • DN2从S3中读取数据,缓存在本地, 并返回给Client Read Pipeline DN1 NN DN2 DN3 Amazon S3 3: /bucket/blk_1234 C
23.
23© Cloudera, Inc. All rights reserved. 其他应用透明访问S3的数据 • 写入数据时: • 应用直接通过Client-DataNode
协议 • 无需知道后端存储的具体细节 • 读取数据时: • DataNode 缓存这份数据 • HDFS数据是不可更改(Immutable) • 提供Client 数据访问局部性 • 方便任务调度和I/O优化(e.g.,Impala)
24.
24© Cloudera, Inc. All rights reserved. Elastic Scale Out / In • HDFS 集群的规模可以快速的扩张或者缩小 •
NameNode具有详尽准确的DataNode信息 • 所有DataNode上的数据都是作为Staging和Cache data而存在的 • 新增的DataNode可以立即响应任意的读写请求 • 关闭DataNode等效于清空Cache • HDFS集群的大小取决于 • 运算能力的需求 • 而不是存储能力的需求
25.
25© Cloudera, Inc. All rights reserved. Apache 开源社区 • 欢迎将Hadoop的改进回馈给 Apache 开源项目. •
一起来维护和培养Hadoop Ecosystem.
26.
26© Cloudera, Inc. All rights reserved. FAQ
Jetzt herunterladen