SlideShare a Scribd company logo
1 of 27
Download to read offline
阿里巴巴-开放数据处理服务
(Open Data Processing Service, ODPS)
数据平台事业部 – 杨少华
提纲
• 背景与概况
•
•
•
•

服务架构
关键技术
服务管理
结语

2
背景
• 海量数据处理和分享需求
– PB级电商交易数据
– 阿里系各事业部、合作伙伴的数据交换和融合
– 第三方公司的数据处理需求

• 典型数据业务
– 信用贷款/广告DMP
3
高可用

ODPS

云计算
服务
服务概况
• 集群
–
–

• 业务

多个集群
单集群规模
–
–
–
–

机器:5000台
CPU:10万核
内存:500TB
磁盘容量:100PB

– 数百数据开发工程师

– 阿里系各事业部
– 开始为部分第三方ISV和
科研机构开放数据存储和
分析能力

• 负载
– 亿级别文件
– 作业量:5万/天
– 作业I/O:PB级别/天
5
提纲
• 背景与概况

• 服务架构
•
•
•

接入层
逻辑层
存储与计算层

• 关键技术
• 服务管理
• 结语
6
服务架构
POST http://xxx/projects/projectname/jobs
<xml>insert overwrite table d select * from s;</xml>

LVS
接入层
RESTful协议

逻辑层
存储与计算层

负载均衡

协议处理、用户认证
用户空间管理,Query语法语
义分析以及执行计划生成,
数据对象访问控制
分布式存储和计算
7
接入层
• 访问ODPS服务的唯一入口,提供SDK和Console
• 功能设计
 用户认证
 RESTful APIs,基于HTTP协议,支持对资源实体的CRUD操作

• 资源实体
 Project 类似DataBase/Schema,用户隔离和访问控制的主要边界
• Table/Partition,数据集合
• UDF/Resource,文件,jar包,py脚本
• Job/Instance,抽象可执行实体和运行实例
 User/Role,用于管理用户对Project内实体的访问控制和授权

8
接入层-架构
日志工具

在云端(Web IDE)

客户端

天网

··
·

Console
SDK

RESTful APIs

接入层

数据上传/下载服务
Project 1

逻辑层

ODPS 服务
A

存储与计算层

HTTP服务

用户
中心

Project 2

ODPS 服务
B

分布式
meta服务
接入层-分析
• RESTful风格的接入层带来诸多好处
•
•
•
•

方便应用集成,支持非linux平台
方便安全隔离,易于对公网开放
作业日志在后端,便于查错
客户端轻量,升级方便

10
逻辑层
• 负责实现RESTful APIs语义
• 用户请求分两类
• DDL请求,如创建表/删除表,在逻辑层响应完成
• DML请求,如SQL查询和MR作业,需提交计算作业到存储与计算层

• 实现架构
•
•
•
•

Worker
Scheduler
Executor
Meta服务

DDL or DML

Worker 1
DML

Executor 1

…
Scheduler

分布式
meta服务

…
飞天作业

飞天集群

1
逻辑层-双服务架构
接入层

接入层

RESTful协议
Project 2

Project 1

服务 A (控制集群A)

逻辑层

Worker 1

…

Worker m

服务B
(控制集群B) 分布式

meta服务

Scheduler
Executor 1

…

Executor n

存储与
计算层

飞天集群 A

飞天集群 B

··
·
逻辑层-分析
• Worker/Executor
• 线性可扩展,负载均衡

• Schduler
• 只维护一组运行实例,无状态(状态总是持久化)
• 双ODPS服务
• 灰度发布,不停服务轮转升级,failover

• 分布式meta服务
• 使用阿里云OTS分布式存储系统,无需担心空间不够
• 统一名称空间,双服务和多飞天集群对用户透明

13
存储与计算层
• 多个飞天集群组成
• 支持跨集群(机房)数据共享
• 存储
• 使用盘古分布式文件系统
• Master-Slave结构
• 基于Paxos的多Master,故障恢复小于一分钟
• 文件分块(Chunk),每块存三份,分布在不同机架
• 表数据采用统一文件格式:CFile,基于列存储的压缩文件格式
• 提供数据上传和下载服务,支持PB/天的吞吐量

• 计算
• 支持多种计算模式:SQL,MR,算法库,图计算(Pregel)
• 采用伏羲作业,支持DAG,支持基于CPU/MEM的资源调度
14
提纲
•
•

背景与概况
服务架构

• 关键技术
• 跨集群(机房)数据共享
• 高效SQL引擎
• 矩阵运算和数据挖掘算法库
• 图计算框架
• 服务管理
• 结语
15
跨集群(机房)数据共享(1)
• 为什么要做
• 业务快速增长,单集群扩容受机房容量、飞天规模限制

• 难点
•
•
•
•

—— 按业务project进行划分
数据存储和计算如何划分
—— 引入数据版本
数据动态变化,需要保证数据读取正确性
跨机房带宽如何使用
—— 跨集群数据复制任务,流控
对用户透明
—— 数据存储本来就对用户透明

逻辑层

存储与
计算层

ODPS 服务(控制集群)
Worker/Scheduler/Executor

ODPS
服务

飞天集群 A
飞天集群 A

飞天集群 B

(机房1)
(机房1)

分布式
meta服务

(机房2)
16
跨集群(机房)数据共享(2)
• 按业务划分集群
– 关系密切业务的project放在同一个集群
– 每个project对应一个默认集群,作业总是跑在默认集群上

• 数据版本
– 同一份数据(表或分区)在多个集群上可能具有不同的版本
{"LatestVersion":V1,"Status":{"ClusterA":"V1","ClusterB":"V0"}}

– 当一份数据版本更新后,触发一个跨集群数据复制任务

• 跨集群数据复制
– 表或分区可以配置是否进行跨集群复制(自动或手工)
– 流控,优先级

• 直读直写,应对新的跨集群数据依赖,少量任务
17
跨集群(机房)数据共享(3)
• 实施
• 业务project数据依赖做大量的分析统计,与业务方协
商集群划分方案
• 历史数据迁移,观察跨机房数据流量
• 开始逐步切换project的默认集群到新集群

• 效果
• 拥有万级别的大规模集群,后期扩容不受限制
• 对用户透明,跨机房流量可控
• 业务方反映这是最轻松的一次业务迁移

18
高效SQL引擎
• 作业概况:
– DDL:几十万/天,DML:几万/天
•

特性







兼容大部分Hive语法
支持Python和Java写UDF,UDAF,UDTF
物理执行方式:DAG,C++实现
Code gen
准实时实现(Service-Mode)

19
高效SQL引擎(2)-DAG
• 示例
SELECT … FROM a JOIN b ON a.id=b.id GROUP BY a.c;
•

Hive

Job 1
hdfs

•

M1

Job 2
R1

hdfs

M2

R2

hdfs

ODPS SQL
M1
pangu

R1

R2

pangu

M2

•

减少磁盘IO,SQL嵌套多层时性能改进更明显
20
SQL(3)-准实时
• Service-Mode
• 常驻服务,预先申请好worker - 减少调度开销
• Shuffle数据不落地,直接写网络
• 假设作业规模m*r,要求r个reduce先起,接收map写的
数据
• 内存文件
• LLVM,减少编译时间
•

•

根据SQL类型和数据量动态决定是否采用ServiceMode方式
未考虑Failover,主要用于开发project和Adhoc数
据分析
Xlib-矩阵运算与数据挖掘算法库
• 金融建模/广告等场景有强烈的分布式算法需求
• ODPS分布式算法库



基于MPI,C++实现
集团共建算法社区模式,集成常用基础性算法


当前支持算法
–
–
–
–



SVD分解
逻辑回归
随机森林
…

集成Graphlib算法库
22
图计算框架
• 海量图结构数据
–
–

•

社交网络(来往,微博),物流信息(菜鸟物流)
电商关系:类目/商品/买家/卖家,交易/浏览

ODPS图计算框架
– 支持类似Pregel的Java编程接口,面向迭代类型的作业
– 磁盘IO→内存网络,换来更快的性能


典型应用:
–
–
–
–



PageRank
K-均值聚类
非负矩阵分解NMF
…

算法往往跟业务相关
23
提纲
•
•
•

背景与概况
服务架构
关键技术

• 服务管理
• 结语

24
服务管理
•
•
•
•
•
•

多租户共享集群
基于ACL和Policy的认证授权机制
基于project的业务划分
基于配额的管理
基于历史的优化
多种类型计算作业共享集群

25
总结
• 阿里巴巴数据处理服务(ODPS)
–
–
–
–
–
–
–

支持海量数据的离线存储和计算
以RESTful API的方式提供服务
基于飞天分布式平台
支持跨集群(机房)数据共享
支持SQL、MapReduce、MPI、图计算编程框架
支持常用的矩阵运算和数据挖掘算法
支持多租户和基于ACL/Policy的权限控制

我们面对一座数据金矿,就看怎么能挖出更多的
金子,期待有志之士加入阿里数据平台
www.alidata.org
26
Q&A

欢迎安装来往,扫描加入ODPS扎堆
27

More Related Content

What's hot

Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for AgricultureJazz Yao-Tsung Wang
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIGJazz Yao-Tsung Wang
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
X program-within-a-month
X program-within-a-monthX program-within-a-month
X program-within-a-monthChao Zhu
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用Yang Guanjun
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 HadooperFred Chiang
 

What's hot (20)

Data Pipeline Matters
Data Pipeline MattersData Pipeline Matters
Data Pipeline Matters
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Hadoop.TW : Now and Future
Hadoop.TW : Now and FutureHadoop.TW : Now and Future
Hadoop.TW : Now and Future
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
X program-within-a-month
X program-within-a-monthX program-within-a-month
X program-within-a-month
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
 

Viewers also liked

袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战hdhappy001
 
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systemshdhappy001
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准hdhappy001
 

Viewers also liked (6)

袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
 
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Interaction Patterns In User Interfaces
Interaction Patterns In User InterfacesInteraction Patterns In User Interfaces
Interaction Patterns In User Interfaces
 
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准
 
Wiki Design Considerations
Wiki Design ConsiderationsWiki Design Considerations
Wiki Design Considerations
 

Similar to 杨少华:阿里开放数据处理服务

Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine partHow do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine partacelyc1112009
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台hdhappy001
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaJack Gao
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Jianwei Li
 
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介NVIDIA Japan
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术hdhappy001
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理Leo Zhou
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocessbabel_qi
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享vanadies10
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Zac John
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011Yiwei Ma
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611ikewu83
 
优化It网络架构 加速云计算服务
优化It网络架构 加速云计算服务优化It网络架构 加速云计算服务
优化It网络架构 加速云计算服务ITband
 
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点 大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点 Chao Zhu
 

Similar to 杨少华:阿里开放数据处理服务 (20)

Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine partHow do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
 
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
 
优化It网络架构 加速云计算服务
优化It网络架构 加速云计算服务优化It网络架构 加速云计算服务
优化It网络架构 加速云计算服务
 
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点 大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
 

More from hdhappy001

徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践hdhappy001
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进hdhappy001
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架hdhappy001
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎hdhappy001
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术hdhappy001
 
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探hdhappy001
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scalehdhappy001
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sqlhdhappy001
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略hdhappy001
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展hdhappy001
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensionshdhappy001
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测hdhappy001
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统hdhappy001
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoyahdhappy001
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarkshdhappy001
 
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2hdhappy001
 
Michael stack -the state of apache h base
Michael stack -the state of apache h baseMichael stack -the state of apache h base
Michael stack -the state of apache h basehdhappy001
 
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerGunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerhdhappy001
 

More from hdhappy001 (20)

徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
 
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
 
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2
 
Michael stack -the state of apache h base
Michael stack -the state of apache h baseMichael stack -the state of apache h base
Michael stack -the state of apache h base
 
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerGunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stinger
 

杨少华:阿里开放数据处理服务