SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Anthill 一种基于 MapReduce 的分布式 DBMS  作者 :  周敏 [email_address] 本文档归暨南大学计算机系 open talk 组版权所有 遵循 Creative Commons Attribution 2.5 协议
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],分析型数据库相关背景 “ As a data processing paradigm, MapReduce represents a giant step backwards. ” From David J. Dewitt
Hadoop 架构 JobTracker TaskTracker MapTask ReduceTask TaskTracker MapTask ReduceTask TaskTracker MapTask ReduceTask Hadoop 客户端
[object Object],[object Object],[object Object],[object Object],[object Object],HadoopDB 的缺陷
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],研究目标
Anthill 背后的理论分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],“ MapReduce advantages over parallel databases  include storage-system independence and  fine-grain fault tolerance for large jobs.” From Jeffery Dean
Anthill 架构设计 Hadoop  集群 JobTracker TaskTracker MonetDB 实例 MapTask ReduceTask TaskTracker MonetDB 实例 MapTask ReduceTask TaskTracker MonetDB 实例 MapTask ReduceTask 提交 MapReduce 作业 Anthill  服务器 元数据库 分析器 优化器 规划器 执行器 Anthill 客户端 网络
Anthill 服务器 ,[object Object],[object Object],[object Object],[object Object],[object Object],TOK_TAB_COL SELECT TOK_FROM TOK_TAB pokes TOK_INSERT TOK_DEST TOK_SELECT TOK_SELEXPR TOK_FUNC count 1 TOK_TMP TOK_SELEXPR TOK_GROUPBY foo TOK_TAB_COL foo TOK_WHERE = TOK_TAB_COL bar ‘ hello’ SELECT foo, count(1) FROM pokes WHERE bar=’hello’ GROUP BY foo;
Anthill 对 Hadoop 的 扩展 ,[object Object],[object Object],[object Object],<<Interface>> InputFormat MonetDBInputFormat FileInputFormat TextInputFormat DBInputFormat SequenceFileInputFormat HiveInputFormat <<Interface>> OutputFormat MonetDBOutputFormat FileOutputFormat TextOutputFormat DBOutputFormat SequenceFileOutputFormat NullOutputFormat
两类表存储 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
分布策略 ,[object Object],[object Object],“ Put the computation near the data.” From Jim Gray
分布式连接策略 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Anthill 的其它相关设计 ,[object Object],[object Object]
实验结果与分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
未来展望 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],HDFS “ 推” ( 最终结果 ) Reduce Map 本地内存 ( 文件系统 ) 同步“拉” “ 推” HDFS MapReduce 数据流 同步“拉” 同步“拉” MonetDB 集群 “ 推” ( 最终结果 ) Reduce Map 本地内存 ( 缓存 + 文件系统 ) “ 推” MonetDB 集群 Anthill 数据流 同步“拉” 同步“拉” “ 推” 同步“拉” “ 推”
[object Object]

Weitere ähnliche Inhalte

Ähnlich wie Anthill: A Distributed DBMS Based On MapReduce

Hadoop基础及hive入门
Hadoop基础及hive入门Hadoop基础及hive入门
Hadoop基础及hive入门haiwang
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术冬 陈
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Wei-Yu Chen
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析George Ang
 
Baidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log AnalysisBaidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log AnalysisXiaoming Chen
 
Zh tw introduction_to_map_reduce
Zh tw introduction_to_map_reduceZh tw introduction_to_map_reduce
Zh tw introduction_to_map_reduceTrendProgContest13
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)vanadies10
 
Metadata and Interoperability
Metadata and InteroperabilityMetadata and Interoperability
Metadata and InteroperabilityZhang Ren
 
软件工程
软件工程软件工程
软件工程bill0077
 
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流liu sheng
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
DISQL 2.0: Language for Big Data Analysis Widely Adopted in Baidu
DISQL 2.0: Language for Big Data Analysis Widely Adopted in BaiduDISQL 2.0: Language for Big Data Analysis Widely Adopted in Baidu
DISQL 2.0: Language for Big Data Analysis Widely Adopted in BaiduXiaoming Chen
 
海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOXaleafs
 
基于hbase的实时计算框架prom(20111114)
基于hbase的实时计算框架prom(20111114)基于hbase的实时计算框架prom(20111114)
基于hbase的实时计算框架prom(20111114)yiihsia
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010Chuanying Du
 
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Wei-Yu Chen
 
大型互联网应用架构设计
大型互联网应用架构设计大型互联网应用架构设计
大型互联网应用架构设计thinkinlamp
 

Ähnlich wie Anthill: A Distributed DBMS Based On MapReduce (20)

Hadoop基础及hive入门
Hadoop基础及hive入门Hadoop基础及hive入门
Hadoop基础及hive入门
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析
 
Baidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log AnalysisBaidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log Analysis
 
Zh tw introduction_to_map_reduce
Zh tw introduction_to_map_reduceZh tw introduction_to_map_reduce
Zh tw introduction_to_map_reduce
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)
 
Metadata and Interoperability
Metadata and InteroperabilityMetadata and Interoperability
Metadata and Interoperability
 
软件工程
软件工程软件工程
软件工程
 
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流
20140326联动优势数据访问层DAL架构和实践7(刘胜)工行交流
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
DISQL 2.0: Language for Big Data Analysis Widely Adopted in Baidu
DISQL 2.0: Language for Big Data Analysis Widely Adopted in BaiduDISQL 2.0: Language for Big Data Analysis Widely Adopted in Baidu
DISQL 2.0: Language for Big Data Analysis Widely Adopted in Baidu
 
海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX
 
基于hbase的实时计算框架prom(20111114)
基于hbase的实时计算框架prom(20111114)基于hbase的实时计算框架prom(20111114)
基于hbase的实时计算框架prom(20111114)
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
 
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
 
大型互联网应用架构设计
大型互联网应用架构设计大型互联网应用架构设计
大型互联网应用架构设计
 

Anthill: A Distributed DBMS Based On MapReduce

  • 1. Anthill 一种基于 MapReduce 的分布式 DBMS 作者 : 周敏 [email_address] 本文档归暨南大学计算机系 open talk 组版权所有 遵循 Creative Commons Attribution 2.5 协议
  • 2.
  • 3. Hadoop 架构 JobTracker TaskTracker MapTask ReduceTask TaskTracker MapTask ReduceTask TaskTracker MapTask ReduceTask Hadoop 客户端
  • 4.
  • 5.
  • 6.
  • 7. Anthill 架构设计 Hadoop 集群 JobTracker TaskTracker MonetDB 实例 MapTask ReduceTask TaskTracker MonetDB 实例 MapTask ReduceTask TaskTracker MonetDB 实例 MapTask ReduceTask 提交 MapReduce 作业 Anthill 服务器 元数据库 分析器 优化器 规划器 执行器 Anthill 客户端 网络
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.