09 赵昆2. WHO AM I
• 赵昆 (淘宝花名:空无)
• 淘宝网 - 数据平台与产品部 - 数据产品
• 热爱技术、热爱数据、热爱生活
• 果粉、G粉
• 微博:
@此处空无⼀一人
11年11月26日星期六
3. 误区
• 淘宝是一家电子商务公司
• 数据越多越值钱
• 海量只是数据量更大
• 云计算只是一个概念
11年11月26日星期六
4. 传统海量数据产品误区
• 只关注分析处理性能,不关注数据查询性能
• 大型商业产品更好
• Oracle/GreenPlum可以解决大多数问题
• IBM/EMC
• 开源产品更好
• Hadoop可以解决一切问题
• Hadoop成本更低
• 数据展现不重要
11年11月26日星期六
5. 大纲
• 大数据在淘宝的挑战
• 分布式存储计算
• 实时计算
• 实时流处理
• 数据可视化
• 数据产品实践
11年11月26日星期六
7. 淘宝规模
PV 20亿
商品数 8亿+
用户数 4.4亿
品牌数 8万+
SPU 334万
每分钟销售商品
件数 4.8万件
高峰日成交金额 52亿元
11年11月26日星期六
8. 淘宝数据特点
• 数据量大
• 内容多样
• 日志型数据
• 文本数据
• 关系型数据
• 维度丰富
• 涵盖近100个不同行业的商品维度,五级商品类目体系
• 近80000个品牌
• 商品维度+卖家维度+买家维度
• 源数据质量不高
• 非法交易
• 恶意评价
• 用于自定义属性
11年11月26日星期六
9. 挑战
• 20PB 总量
• 900TB 每天计算扫描数据量
• 月增1.5P
• 日增0.06P
• 高峰处理数据量:30G/s
• ...
11年11月26日星期六
10. 挑战
• 数据的商业模式不清楚,缺乏足够的业务支撑
• 海量数据处理的基础技术需要大量的研发投入
• 数据安全机制非常复杂,还要兼顾效率
• 开放的同时,需要防止数据被恶意爬取
• 基础设施的建设周期较长,可能赶不上业务的变化
• 数据自身变化演进,数据更新非常困难
11年11月26日星期六
11. 传统的数据平台
展现 API
高性能
DB
数据同步 大容量 离线计算
存储
11年11月26日星期六
13. 我心中的完美
展现 API
实时计算
实时传输 高速访
问存储
数据同步 大容量 离线计算
存储
11年11月26日星期六
14. 业务系统 淘宝数据应用
Open Hosting 数据工场
TOP API
Open DB Open DB
数据API 服务API
数据同步
在线计算
TOP API
实时
离线计算
处理
在线存储 数据挖掘
数据写入API
底层存储
安全过滤层
缓冲区存储 淘宝DB
实时同步
11年11月26日星期六
16. 分布式存储计算
• M/R:
• 文本数据
• 数据挖掘
RPT RPT
• 复杂计算
• HQL:
•
Automa'c
中间层建设
Hive Code
• 维度转换 Framework
• 指标加工
M/R
11年11月26日星期六
17. 使用状况
• 分布式存储和计算
• 1800+ Hadoop集群
• 24G+2T*12T
• 离线
•
7:00 前必须处理完昨日增量计算
•
(目前每天3半点前处理完成)
• 在线
•
实时的交易跟踪,秒级别的延迟
•
实时千万级交易维度交叉计算
• 分布式数据挖掘
• 30个节点的Mahout集群
• 淘宝母婴频道推荐月底上线
11年11月26日星期六
18. • 多维数据立方体构造
• 满足业务对数据分析灵活性要求
• 压缩数据处理中间过程
• 减少表间关联
• 计算时对维度抽象转换:
• 一次过程进行多粒度进行指标汇总
• 支持用户自定义
11年11月26日星期六
19. Myfox - 分布式Mysql集群
• 基于Mysql Myisam存储引擎
• 海量数据分布式存储、非实时写入
• 提供全镜像、路由字段、记录条数、组合等数据分片规则
• 32个节点
11年11月26日星期六
20. Myfox - 分布式Mysq集群
路由信息库
M
MyFOX(虚拟机)
S
热节点(MySQL) 冷节点(MySQL)
15k SAS硬盘,300G * 12,8节点 7.2k SATA硬盘,1T * 12,8节点
MySQL
MySQL
MySQL
MySQL
MySQL
= = =
14
11年11月26日星期六
21. Myfox - 数据查询
路 APC SQL解析
由
层 缓存 语义理解
查询路由 字段改写
分片SQL 计算规则
查
询 缓存 取分片数据
层
计
算 结果合并
层
11年11月26日星期六
22. 挑战
• 淘宝涵盖100个行业的商品
• 属性值的条数2000W
如何获取任意多个商品属性值组
合产生的交易 ?
11年11月26日星期六
24. Prom
• T级数据量(7天总量hbase)
• 千万级记录实时计算分析
• 以byte[]方式存储于hbase
11年11月26日星期六
25. ClientApp
SharesMerge
Shard1 Shard2
Cache Calc
DataFetch Index
DataStorage IndexStorage
11年11月26日星期六
26. Glider
• 高性能异构数据中间层
• 统一restful数据输出接口
• 使用SQL Like作为配置语法
• 整合多种数据源,不同数据源之间数据可以进行SQL关联操作
• Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP API
• 简单的数据二次加工
• 内置二级缓存
• 单虚拟机 8000qps (4CPU/7G内存)
• 请求分优先级
11年11月26日星期六
27. 挑战
• 如何获取店铺实时数据?
• 不能直接主库上计算啊,主库表示压力很大。
11年11月26日星期六
29. 银河 - 实时流处理平台
• 基于Actor模型的分布式流数据实时处理和计算框架
• 底层基于开源软件AKKA实现
• 消息既数据
• 客户端3台(1.5万/s),Hbase 5台
• 日处理3亿数据量
前端应用
数据源 实时流
实时流处理
计算
实时计算系统
数据缓存
数据反馈
11年11月26日星期六
30. 银河 - 技术框架
Other&PNs ZK
&
&
Data API Control & Management API
Data
Configurati
Event Status Stage ZK
PN on
Dispatche Monitor Manager
& Manager
r & Config file
Stage Container DB
&
AKKA
11年11月26日星期六
32. 应用
• 实时行业总体数据
• 分类目实时商品成交排行
• 实时店铺汇总数据
• 实时店铺浏览、交易明细
• 实时用户成交排行
11年11月26日星期六
34. 数据可视化
• 为什么要研究数据可视化?
数据大爆炸
、难懂
数据太枯燥 数据
关系
太复
杂
数据背后隐藏什么?
11年11月26日星期六
39. 浪淘金
• 社会化电子商务数据可视化分析工具
• 淘宝数据平台与新浪微博合作项目
11年11月26日星期六
41. 总结
展现 API
实时计算
实时传输 高速访
问存储
数据同步 大容量 离线计算
存储
11年11月26日星期六
43. 数据魔方
data.taobao.com
11年11月26日星期六
44. 挑战
• 数据量巨大
• 商品更新
• 类目变化频繁
• 大单、走账
• 作弊、刷信用
• 数据安全
• 马太效应
11年11月26日星期六
45. 数据魔方
• 淘宝第一个基于全量数据的数据产品
• 底层基于云计算
• 第一个成熟的、基于海量数据的商业数据产品
• 明年计划开放数据给第三方应用
11年11月26日星期六
47. 淘宝数据产品架构
Cubex
Index
Mytaobao
LisLng
Glider
API
Myfox
Prom
Andes
SearchEngine
3rd
KVProxy
MySQL
TC
Redis
HBase
Cloud
47
11年11月26日星期六
48. 维度和指标
维度 指标
基本维度 买家维度 卖家维度 交易指标 成交店铺 行为指标 规模指标
时间 年龄 地区 GMV成交 Alipay成交 搜索人数 上架店铺
金额 金额 搜索次数 上架商品
类目 性别 卖家信用
笔数 笔数 浏览人数 活跃店铺
品牌 地区 卖家类型
人数 人数 浏览次数 活跃商品
产品 买家信用 促销方式
商品数 商品数 收藏人数
属性 购买频次
收藏次数
价格区间
11年11月26日星期六
51. 淘宝指数
• 淘宝下一个重要的数据产品
• 完全免费
• 2011正式发布
• 流行趋势、消费者研究
11年11月26日星期六
55. 其他数据产品
• 淘宝魔镜
• TCIF
• 母婴推荐
• 淘宝情报
• 卖家经营报告
• 商品评论分析系统
• 淘宝数据门户 *
• LabsEngine *
11年11月26日星期六
56. 未来
• 开放
• 数据开放
• 平台开放
• 系统开源
• 实时
• 实时计算
• 流处理
11年11月26日星期六
57. Thanks
微博: @此处空无一人
kongwu@taobao.com
11年11月26日星期六