Suche senden
Hochladen
Distributed Data Analytics at Taobao
•
2 gefällt mir
•
661 views
Min Zhou
Folgen
Distributed Data Analytics at Taobao
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 15
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
准实时海量数据分析系统架构探究
准实时海量数据分析系统架构探究
Min Zhou
Java Concurrent Optimization: Concurrent Queue
Java Concurrent Optimization: Concurrent Queue
Min Zhou
Hadoop hive
Hadoop hive
Wei-Yu Chen
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
Empfohlen
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
准实时海量数据分析系统架构探究
准实时海量数据分析系统架构探究
Min Zhou
Java Concurrent Optimization: Concurrent Queue
Java Concurrent Optimization: Concurrent Queue
Min Zhou
Hadoop hive
Hadoop hive
Wei-Yu Chen
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
drewz lin
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
Hadoop 介紹 20141024
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
Life of Big Data Technologies
Life of Big Data Technologies
Jazz Yao-Tsung Wang
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
Wei-Yu Chen
redis 适用场景与实现
redis 适用场景与实现
iammutex
Log collection
Log collection
FEG
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
Wei-Yu Chen
When R meet Hadoop
When R meet Hadoop
Jazz Yao-Tsung Wang
Hadoop与数据分析
Hadoop与数据分析
George Ang
淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
Hadoop大数据实践经验
Hadoop大数据实践经验
Hanborq Inc.
Weitere ähnliche Inhalte
Was ist angesagt?
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
drewz lin
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
Hadoop 介紹 20141024
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
Life of Big Data Technologies
Life of Big Data Technologies
Jazz Yao-Tsung Wang
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
Wei-Yu Chen
redis 适用场景与实现
redis 适用场景与实现
iammutex
Log collection
Log collection
FEG
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
Wei-Yu Chen
When R meet Hadoop
When R meet Hadoop
Jazz Yao-Tsung Wang
Hadoop与数据分析
Hadoop与数据分析
George Ang
淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
Was ist angesagt?
(20)
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Hadoop 介紹 20141024
Hadoop 介紹 20141024
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
Life of Big Data Technologies
Life of Big Data Technologies
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
redis 适用场景与实现
redis 适用场景与实现
Log collection
Log collection
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
When R meet Hadoop
When R meet Hadoop
Hadoop与数据分析
Hadoop与数据分析
淘宝分布式数据处理实践
淘宝分布式数据处理实践
Ähnlich wie Distributed Data Analytics at Taobao
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
Hadoop大数据实践经验
Hadoop大数据实践经验
Hanborq Inc.
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
Exadata那点事
Exadata那点事
freezr
百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化
tiantianli
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
思念 青青
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
Leo Zhou
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
张勇 搜搜前端架构
张勇 搜搜前端架构
isnull
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
James Chen
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
acelyc1112009
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
丁 宇
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
drewz lin
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
acelyc1112009
Yog Framework
Yog Framework
fansekey
Hacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算
Wensong Zhang
低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)
drewz lin
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
markmind
Ähnlich wie Distributed Data Analytics at Taobao
(20)
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
Hadoop大数据实践经验
Hadoop大数据实践经验
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
Exadata那点事
Exadata那点事
百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
张勇 搜搜前端架构
张勇 搜搜前端架构
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
Yog Framework
Yog Framework
Hacking Nginx at Taobao
Hacking Nginx at Taobao
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
Mehr von Min Zhou
Big Data Analytics Infrastructure
Big Data Analytics Infrastructure
Min Zhou
Java trouble shooting
Java trouble shooting
Min Zhou
Hive
Hive
Min Zhou
Java程序员也需要了解CPU
Java程序员也需要了解CPU
Min Zhou
Anthill: A Distributed DBMS Based On MapReduce
Anthill: A Distributed DBMS Based On MapReduce
Min Zhou
Redpoll
Redpoll
Min Zhou
Mehr von Min Zhou
(6)
Big Data Analytics Infrastructure
Big Data Analytics Infrastructure
Java trouble shooting
Java trouble shooting
Hive
Hive
Java程序员也需要了解CPU
Java程序员也需要了解CPU
Anthill: A Distributed DBMS Based On MapReduce
Anthill: A Distributed DBMS Based On MapReduce
Redpoll
Redpoll
Distributed Data Analytics at Taobao
1.
1 淘宝分布式数据处理实践 淘宝数据平台及产品部 周敏 zhouchen.zm@taobao.com 2010-09-04
2.
主要内容 • 云梯介绍 • 对Hadoop的主要功能扩展与改造 •
Hive实践 • 对Hive的改造 • 分布式数据仓库构思
3.
淘宝的数据 Oracle 备库 MySQL
备库 日志系统 云梯1 TimeTunnelJDBCDUMP 数据平台 搜索 支付宝 B2B 云梯2 天网调度系统 Gateway Servers 数据魔方 量子统计 口碑 DataExchange 爬虫数据 Map Reduce Java Jobs Streaming Jobs Hive Jobs 广告 BI 淘数据 推荐系统 搜索排行 …
4.
云梯1规模 • 总容量9.3PB, 利用率77.09% •
总共1100台机器 • Master:8CPU(HT),48G内存,SAS Raid • Slave节点异构 – 8CPU/8CPU(HT) – 16G/24G内存 – 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD – 12/20 slots • 约18000道作业/天, 扫描数据:约500TB/天 • 用户数474人, 用户组38个
5.
云梯1规模-slave • Slave机器异构 – 6T机器磁盘利用率较高 –
Rebalance – 单机速度控制:10M/s – 每天9:00 ~ 23:30运行 • Slave故障率 – 每周10 ~ 20次硬盘故障 – 每周1 ~ 2次主板或其他故障
6.
云梯1 Hadoop版本 • 基于0.19.1 •
大量Patch – 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开 发 • Hadoop客户端和服务端代码开发分离, 云梯管理 员只负责服务端升级, 并保持版本向下兼容
7.
云梯主要功能扩展 • 安全性 – 密码认证
(hadoop.job.ugi) – 扩展ACL,用户访问其他组的数据(开发中) • Scheduler – 基于FairScheduler的改造 – slots动态调整(网页形式,每小时更新) – 各个组使用自己的资源 • Slave单磁盘容错 – DataNode坏掉一块磁盘不需要停止,减少数据分发 – TaskTracker坏掉一块磁盘后不对作业造成影响
8.
Master节点容灾方案 • 3个Master +
1个Standby节点 – 配置文件一致,上传至SVN • Virtual IP (NameNode和JobTracker) • JobTracker无元数据,JobHistory每天备份七天 前的历史文件 • NameNode和SecondaryNameNode – Check point 1天做一次(晚上8点之后),降低 NameNode启动时间 – Fsimage和edits同时通过NFS写到SNN上,元数据保 存两份 • Standby在NN或JT宕机时启用
9.
将来的工作 • JobTracker单点问题 – 调度效率低下导致集群利用率不足 •
NameNode HA – AvatarNode • Namenode 内存瓶颈 – Heap Size 40G,CMS gc之后 23G – 分布式NameNode, Dynamic Partition Tree • Hadoop 升级 • OSD及CRUSH算法
10.
Hive使用 • 2009年3月调研,4月投入生产 • CLI与Thrift
Server并用 • Web/SSH 界面 • 模板化 & 预加载 • 86个统一发布UDF • Lineage Analysis • 极限存储 – 增量存储表 – 按数据的生命周期分目录
11.
实践经验 • 数据倾斜 • 内存优化 •
I/O优化 • Multi-Insert • 数据压缩
12.
淘宝对Hive的贡献与改造 • UDFs • 建立/删除临时函数 •
多线程 Thrift server • GBK支持 • 完全JDBC • Multi Distinct Aggregation支持 • 认证与权限 • bug fix
13.
将来的工作 • Hive IDE •
Multi Distinct Aggregation优化 • Multi Group By优化 • 极限存储的索引与文件 • 表统计信息的支持 • 采用TFile做列存储尝试
14.
链接 • 淘宝数据魔方 – http://data.taobao.com •
淘宝数据平台团队博客 – http://www.tbdata.org/ • 个人 – http://coderplay.javaeye.com – http://twitter.com/minzhou
Jetzt herunterladen