SlideShare ist ein Scribd-Unternehmen logo
1 von 57
Downloaden Sie, um offline zu lesen
淘宝海量数据产品技术


                  数据产品 赵昆




11年11月26日星期六
WHO  AM  I

      •    赵昆  (淘宝花名:空无)
      •    淘宝网  -  数据平台与产品部  -  数据产品
      •    热爱技术、热爱数据、热爱生活
      •    果粉、G粉
      •    微博:




                            @此处空无⼀一人


11年11月26日星期六
误区

      • 淘宝是一家电子商务公司
      • 数据越多越值钱
      • 海量只是数据量更大
      • 云计算只是一个概念




11年11月26日星期六
传统海量数据产品误区

      •    只关注分析处理性能,不关注数据查询性能
      •    大型商业产品更好
          • Oracle/GreenPlum可以解决大多数问题
          • IBM/EMC
      •    开源产品更好
          • Hadoop可以解决一切问题
          • Hadoop成本更低
      •    数据展现不重要




11年11月26日星期六
大纲

      •    大数据在淘宝的挑战
      •    分布式存储计算
      •    实时计算
      •    实时流处理
      •    数据可视化
      •    数据产品实践




11年11月26日星期六
大数据在淘宝的挑战




11年11月26日星期六
淘宝规模

               PV    20亿
         商品数         8亿+
         用户数         4.4亿
         品牌数         8万+
               SPU   334万
      每分钟销售商品
         件数          4.8万件
      高峰日成交金额        52亿元



11年11月26日星期六
淘宝数据特点

      •    数据量大
      •    内容多样
          • 日志型数据
          • 文本数据
          • 关系型数据
      •    维度丰富
          • 涵盖近100个不同行业的商品维度,五级商品类目体系
          • 近80000个品牌
          • 商品维度+卖家维度+买家维度
      •    源数据质量不高
          • 非法交易
          • 恶意评价
          • 用于自定义属性



11年11月26日星期六
挑战

      •    20PB  总量
      •    900TB  每天计算扫描数据量
      •    月增1.5P
      •    日增0.06P
      •    高峰处理数据量:30G/s
      •    ...




11年11月26日星期六
挑战

      •    数据的商业模式不清楚,缺乏足够的业务支撑
      •    海量数据处理的基础技术需要大量的研发投入
      •    数据安全机制非常复杂,还要兼顾效率
      •    开放的同时,需要防止数据被恶意爬取
      •    基础设施的建设周期较长,可能赶不上业务的变化
      •    数据自身变化演进,数据更新非常困难




11年11月26日星期六
传统的数据平台

                            展现     API




                            高性能
                             DB



               数据同步   大容量         离线计算
                       存储




11年11月26日星期六
有没有完美的数据平台?




11年11月26日星期六
我心中的完美

                             展现     API



                            实时计算



               实时传输         高速访
                            问存储



               数据同步   大容量          离线计算
                       存储




11年11月26日星期六
     业务系统                                    淘宝数据应用




                                Open  Hosting                                 数据工场
                                                    TOP  API



                               Open  DB                                              Open  DB
                                                        数据API          服务API


                                                                                       数据同步
                                                 在线计算
                   TOP  API

                                   实时
                                                                       离线计算
                                   处理

                                                  在线存储                 数据挖掘

                  数据写入API




                                                                  底层存储
                安全过滤层

               缓冲区存储                                            淘宝DB
                                           实时同步

11年11月26日星期六
分布式存储计算




11年11月26日星期六
分布式存储计算

      •    M/R:  
          •  文本数据
          •  数据挖掘
                               RPT          RPT

          •  复杂计算
      •    HQL:  
          •
                            Automa'c
             中间层建设
                     Hive      Code

          •  维度转换           Framework	
  


          •  指标加工




                     M/R




11年11月26日星期六
使用状况

      •    分布式存储和计算
          • 1800+  Hadoop集群
          • 24G+2T*12T
          • 离线        
               •
              7:00  前必须处理完昨日增量计算
               •
              (目前每天3半点前处理完成)
          • 在线
               •
              实时的交易跟踪,秒级别的延迟
               •
              实时千万级交易维度交叉计算
      •    分布式数据挖掘
          • 30个节点的Mahout集群
          • 淘宝母婴频道推荐月底上线



11年11月26日星期六
•    多维数据立方体构造  
          • 满足业务对数据分析灵活性要求
          • 压缩数据处理中间过程
          • 减少表间关联



      •    计算时对维度抽象转换:
          • 一次过程进行多粒度进行指标汇总
          • 支持用户自定义




11年11月26日星期六
Myfox  -  分布式Mysql集群

      •    基于Mysql  Myisam存储引擎
      •    海量数据分布式存储、非实时写入
      •    提供全镜像、路由字段、记录条数、组合等数据分片规则
      •    32个节点




11年11月26日星期六
Myfox  -  分布式Mysq集群




                                                                            路由信息库
                                                                        M


                         MyFOX(虚拟机)
                                                                        S




                热节点(MySQL)                          冷节点(MySQL)


               15k SAS硬盘,300G * 12,8节点            7.2k SATA硬盘,1T * 12,8节点
                 MySQL




                              MySQL




                                          MySQL




                                                    MySQL




                                                                MySQL
                          =           =                     =
                                                                                    14




11年11月26日星期六
Myfox  -  数据查询



               路             APC           SQL解析
               由
               层   缓存                  语义理解

                               查询路由            字段改写

                                   分片SQL           计算规则


               查
               询        缓存             取分片数据
               层

               计
               算                       结果合并
               层




11年11月26日星期六
挑战

    •   淘宝涵盖100个行业的商品
    •   属性值的条数2000W



               如何获取任意多个商品属性值组
               合产生的交易  ?




11年11月26日星期六
实时计算




11年11月26日星期六
Prom

      •    T级数据量(7天总量hbase)
      •    千万级记录实时计算分析
      •    以byte[]方式存储于hbase




11年11月26日星期六
ClientApp

                            SharesMerge

                         Shard1             Shard2

               Cache         Calc

                       DataFetch    Index


               DataStorage IndexStorage
11年11月26日星期六
Glider

      •    高性能异构数据中间层
      •    统一restful数据输出接口
      •    使用SQL  Like作为配置语法
      •    整合多种数据源,不同数据源之间数据可以进行SQL关联操作
          • Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP  API
      •    简单的数据二次加工
      •    内置二级缓存
      •    单虚拟机  8000qps  (4CPU/7G内存)
      •    请求分优先级




11年11月26日星期六
挑战

      •    如何获取店铺实时数据?  
      •    不能直接主库上计算啊,主库表示压力很大。




11年11月26日星期六
实时流处理




11年11月26日星期六
银河  -  实时流处理平台

      •    基于Actor模型的分布式流数据实时处理和计算框架
      •    底层基于开源软件AKKA实现
      •    消息既数据
      •    客户端3台(1.5万/s),Hbase  5台
      •    日处理3亿数据量


                                       前端应用
               数据源               实时流
                       实时流处理
                                  计算
                                       实时计算系统
                          数据缓存



                          数据反馈




11年11月26日星期六
银河  -  技术框架




                    Other&PNs                      ZK
                         &




                                                   &
                       Data API       Control & Management API
                         Data
                                                        Configurati
                        Event     Status       Stage                          ZK
               PN                                           on
                      Dispatche   Monitor     Manager
                    &                                     Manager
                          r                                           &   Config file
                                     Stage Container                          DB
                                                                      &

                                            AKKA




11年11月26日星期六
银河  -  数据流




11年11月26日星期六
应用

      •    实时行业总体数据
      •    分类目实时商品成交排行
      •    实时店铺汇总数据
      •    实时店铺浏览、交易明细
      •    实时用户成交排行




11年11月26日星期六
数据可视化




11年11月26日星期六
数据可视化

      •    为什么要研究数据可视化?


                          数据大爆炸


                    、难懂
               数据太枯燥        数据
                              关系
                                 太复
                                   杂

                数据背后隐藏什么?




11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
浪淘金

      •    社会化电子商务数据可视化分析工具
      •    淘宝数据平台与新浪微博合作项目




11年11月26日星期六
可视化应用开发流程




11年11月26日星期六
总结

                             展现     API



                            实时计算



               实时传输         高速访
                            问存储



               数据同步   大容量          离线计算
                       存储




11年11月26日星期六
数据产品实践




11年11月26日星期六
数据魔方
               data.taobao.com




11年11月26日星期六
挑战

      •    数据量巨大
      •    商品更新
      •    类目变化频繁
      •    大单、走账
      •    作弊、刷信用
      •    数据安全
      •    马太效应




11年11月26日星期六
数据魔方

      •    淘宝第一个基于全量数据的数据产品
      •    底层基于云计算
      •    第一个成熟的、基于海量数据的商业数据产品
      •    明年计划开放数据给第三方应用




11年11月26日星期六
数据魔方  -  数据模型




11年11月26日星期六
淘宝数据产品架构
                           Cubex	
           Index	
         Mytaobao	
          LisLng	
  

                                        Glider	
                       API	
  


               Myfox	
          Prom	
                Andes	
      SearchEngine	
   3rd	
  

                                        KVProxy	
  
           MySQL	
             TC	
        Redis	
   HBase	
  



                                  Cloud	
  
                                                                                              47

11年11月26日星期六
维度和指标

                     维度                                指标


        基本维度        买家维度    卖家维度       交易指标     成交店铺    行为指标       规模指标


               时间     年龄      地区    GMV成交   Alipay成交        搜索人数    上架店铺


                                      金额       金额           搜索次数    上架商品
               类目     性别     卖家信用

                                      笔数       笔数           浏览人数    活跃店铺
               品牌     地区     卖家类型

                                      人数       人数           浏览次数    活跃商品
               产品    买家信用    促销方式
                                     商品数      商品数           收藏人数
               属性    购买频次
                                                            收藏次数

                     价格区间



11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
淘宝指数

      •    淘宝下一个重要的数据产品
      •    完全免费
      •    2011正式发布
      •    流行趋势、消费者研究




11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
其他数据产品

      •    淘宝魔镜
      •    TCIF
      •    母婴推荐
      •    淘宝情报
      •    卖家经营报告
      •    商品评论分析系统
      •    淘宝数据门户  *
      •    LabsEngine  *




11年11月26日星期六
未来

      •    开放
          • 数据开放
          • 平台开放
          • 系统开源


      •    实时  
          • 实时计算
          • 流处理




11年11月26日星期六
Thanks

               微博:  @此处空无一人

               kongwu@taobao.com



11年11月26日星期六

Weitere ähnliche Inhalte

Andere mochten auch

Redis中文入门手册
Redis中文入门手册Redis中文入门手册
Redis中文入门手册
锐 张
 
<img src="../i/r_14.png" />
<img src="../i/r_14.png" /><img src="../i/r_14.png" />
<img src="../i/r_14.png" />
tutorialsruby
 
07 丛磊
07 丛磊07 丛磊
07 丛磊
锐 张
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
 
网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维
锐 张
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
锐 张
 
Redis介绍
Redis介绍Redis介绍
Redis介绍
锐 张
 
Redis学习笔记
Redis学习笔记Redis学习笔记
Redis学习笔记
锐 张
 
Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄
锐 张
 
亚马逊云计算Aws
亚马逊云计算Aws亚马逊云计算Aws
亚马逊云计算Aws
锐 张
 
服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt
锐 张
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
锐 张
 

Andere mochten auch (20)

Redis中文入门手册
Redis中文入门手册Redis中文入门手册
Redis中文入门手册
 
Advanced guide to develop ajax applications using dojo
Advanced guide to develop ajax applications using dojoAdvanced guide to develop ajax applications using dojo
Advanced guide to develop ajax applications using dojo
 
Ajax应用开发最佳实践
Ajax应用开发最佳实践Ajax应用开发最佳实践
Ajax应用开发最佳实践
 
<img src="../i/r_14.png" />
<img src="../i/r_14.png" /><img src="../i/r_14.png" />
<img src="../i/r_14.png" />
 
The lottery
The lotteryThe lottery
The lottery
 
07 丛磊
07 丛磊07 丛磊
07 丛磊
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
 
网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
 
Redis介绍
Redis介绍Redis介绍
Redis介绍
 
Redis学习笔记
Redis学习笔记Redis学习笔记
Redis学习笔记
 
Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄
 
亚马逊云计算Aws
亚马逊云计算Aws亚马逊云计算Aws
亚马逊云计算Aws
 
服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Open the Eyes of My Heart Lyrics
Open the Eyes of My Heart LyricsOpen the Eyes of My Heart Lyrics
Open the Eyes of My Heart Lyrics
 
D-Day: June 6, 1944
D-Day: June 6, 1944D-Day: June 6, 1944
D-Day: June 6, 1944
 
Introduction to Web Components
Introduction to Web ComponentsIntroduction to Web Components
Introduction to Web Components
 
The Evolution of Java
The Evolution of JavaThe Evolution of Java
The Evolution of Java
 
The lottery
The lotteryThe lottery
The lottery
 

Ähnlich wie 09 赵昆

天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Yiwei Ma
 
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构  -长林#Lamp人#淘宝数据魔方的系统架构  -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
drewz lin
 
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
drewz lin
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
 

Ähnlich wie 09 赵昆 (20)

天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
Mysql HandleSocket技术在SNS Feed存储中的应用
Mysql HandleSocket技术在SNS Feed存储中的应用Mysql HandleSocket技术在SNS Feed存储中的应用
Mysql HandleSocket技术在SNS Feed存储中的应用
 
Zh120226techparty jeff kit-ios-toolbox
Zh120226techparty jeff kit-ios-toolboxZh120226techparty jeff kit-ios-toolbox
Zh120226techparty jeff kit-ios-toolbox
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构  -长林#Lamp人#淘宝数据魔方的系统架构  -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
 
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
 
美丽说的架构发展与变迁 New
美丽说的架构发展与变迁 New美丽说的架构发展与变迁 New
美丽说的架构发展与变迁 New
 
No sql带来了什么 孙立
No sql带来了什么   孙立No sql带来了什么   孙立
No sql带来了什么 孙立
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Portfolio
PortfolioPortfolio
Portfolio
 
深入淺出 AWS 大數據工具
深入淺出 AWS 大數據工具深入淺出 AWS 大數據工具
深入淺出 AWS 大數據工具
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
 
Streaming architecture zx_dec2015
Streaming architecture zx_dec2015Streaming architecture zx_dec2015
Streaming architecture zx_dec2015
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 

Mehr von 锐 张

长尾理论(The longtail)版
长尾理论(The longtail)版长尾理论(The longtail)版
长尾理论(The longtail)版
锐 张
 
Openstack starter-guide-diablo
Openstack starter-guide-diabloOpenstack starter-guide-diablo
Openstack starter-guide-diablo
锐 张
 
基于My sql的分布式数据库实践
基于My sql的分布式数据库实践基于My sql的分布式数据库实践
基于My sql的分布式数据库实践
锐 张
 
Redis内存存储结构分析
Redis内存存储结构分析Redis内存存储结构分析
Redis内存存储结构分析
锐 张
 
淘宝前端优化
淘宝前端优化淘宝前端优化
淘宝前端优化
锐 张
 
Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄
锐 张
 
Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄
锐 张
 
Sun jdk-1.6-gc
Sun jdk-1.6-gcSun jdk-1.6-gc
Sun jdk-1.6-gc
锐 张
 
Redis深入浅出
Redis深入浅出Redis深入浅出
Redis深入浅出
锐 张
 
Green plum培训材料
Green plum培训材料Green plum培训材料
Green plum培训材料
锐 张
 
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
锐 张
 
Lamp高性能设计
Lamp高性能设计Lamp高性能设计
Lamp高性能设计
锐 张
 
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
锐 张
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰
锐 张
 
人人网互联网产品易用性、Ue设计培训
人人网互联网产品易用性、Ue设计培训人人网互联网产品易用性、Ue设计培训
人人网互联网产品易用性、Ue设计培训
锐 张
 
C2c网站运营ppt
C2c网站运营pptC2c网站运营ppt
C2c网站运营ppt
锐 张
 
Big pipe backend2
Big pipe backend2Big pipe backend2
Big pipe backend2
锐 张
 
数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶
锐 张
 

Mehr von 锐 张 (18)

长尾理论(The longtail)版
长尾理论(The longtail)版长尾理论(The longtail)版
长尾理论(The longtail)版
 
Openstack starter-guide-diablo
Openstack starter-guide-diabloOpenstack starter-guide-diablo
Openstack starter-guide-diablo
 
基于My sql的分布式数据库实践
基于My sql的分布式数据库实践基于My sql的分布式数据库实践
基于My sql的分布式数据库实践
 
Redis内存存储结构分析
Redis内存存储结构分析Redis内存存储结构分析
Redis内存存储结构分析
 
淘宝前端优化
淘宝前端优化淘宝前端优化
淘宝前端优化
 
Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄
 
Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄
 
Sun jdk-1.6-gc
Sun jdk-1.6-gcSun jdk-1.6-gc
Sun jdk-1.6-gc
 
Redis深入浅出
Redis深入浅出Redis深入浅出
Redis深入浅出
 
Green plum培训材料
Green plum培训材料Green plum培训材料
Green plum培训材料
 
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:Sae平台的灵活应用(吕毅、魏世江)
 
Lamp高性能设计
Lamp高性能设计Lamp高性能设计
Lamp高性能设计
 
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰
 
人人网互联网产品易用性、Ue设计培训
人人网互联网产品易用性、Ue设计培训人人网互联网产品易用性、Ue设计培训
人人网互联网产品易用性、Ue设计培训
 
C2c网站运营ppt
C2c网站运营pptC2c网站运营ppt
C2c网站运营ppt
 
Big pipe backend2
Big pipe backend2Big pipe backend2
Big pipe backend2
 
数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶
 

09 赵昆

  • 1. 淘宝海量数据产品技术 数据产品 赵昆 11年11月26日星期六
  • 2. WHO  AM  I • 赵昆  (淘宝花名:空无) • 淘宝网  -  数据平台与产品部  -  数据产品 • 热爱技术、热爱数据、热爱生活 • 果粉、G粉 • 微博: @此处空无⼀一人 11年11月26日星期六
  • 3. 误区 • 淘宝是一家电子商务公司 • 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念 11年11月26日星期六
  • 4. 传统海量数据产品误区 • 只关注分析处理性能,不关注数据查询性能 • 大型商业产品更好 • Oracle/GreenPlum可以解决大多数问题 • IBM/EMC • 开源产品更好 • Hadoop可以解决一切问题 • Hadoop成本更低 • 数据展现不重要 11年11月26日星期六
  • 5. 大纲 • 大数据在淘宝的挑战 • 分布式存储计算 • 实时计算 • 实时流处理 • 数据可视化 • 数据产品实践 11年11月26日星期六
  • 7. 淘宝规模 PV 20亿 商品数 8亿+ 用户数 4.4亿 品牌数 8万+ SPU 334万 每分钟销售商品 件数 4.8万件 高峰日成交金额 52亿元 11年11月26日星期六
  • 8. 淘宝数据特点 • 数据量大 • 内容多样 • 日志型数据 • 文本数据 • 关系型数据 • 维度丰富 • 涵盖近100个不同行业的商品维度,五级商品类目体系 • 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不高 • 非法交易 • 恶意评价 • 用于自定义属性 11年11月26日星期六
  • 9. 挑战 • 20PB  总量 • 900TB  每天计算扫描数据量 • 月增1.5P • 日增0.06P • 高峰处理数据量:30G/s • ... 11年11月26日星期六
  • 10. 挑战 • 数据的商业模式不清楚,缺乏足够的业务支撑 • 海量数据处理的基础技术需要大量的研发投入 • 数据安全机制非常复杂,还要兼顾效率 • 开放的同时,需要防止数据被恶意爬取 • 基础设施的建设周期较长,可能赶不上业务的变化 • 数据自身变化演进,数据更新非常困难 11年11月26日星期六
  • 11. 传统的数据平台 展现 API 高性能 DB 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 13. 我心中的完美 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 14.      业务系统 淘宝数据应用 Open  Hosting 数据工场 TOP  API Open  DB Open  DB 数据API 服务API 数据同步 在线计算 TOP  API 实时 离线计算 处理 在线存储 数据挖掘 数据写入API 底层存储 安全过滤层 缓冲区存储 淘宝DB 实时同步 11年11月26日星期六
  • 16. 分布式存储计算 • M/R:   • 文本数据 • 数据挖掘 RPT RPT • 复杂计算 • HQL:   • Automa'c 中间层建设 Hive Code • 维度转换 Framework   • 指标加工 M/R 11年11月26日星期六
  • 17. 使用状况 • 分布式存储和计算 • 1800+  Hadoop集群 • 24G+2T*12T • 离线         • 7:00  前必须处理完昨日增量计算 • (目前每天3半点前处理完成) • 在线 • 实时的交易跟踪,秒级别的延迟 • 实时千万级交易维度交叉计算 • 分布式数据挖掘 • 30个节点的Mahout集群 • 淘宝母婴频道推荐月底上线 11年11月26日星期六
  • 18. 多维数据立方体构造   • 满足业务对数据分析灵活性要求 • 压缩数据处理中间过程 • 减少表间关联 • 计算时对维度抽象转换: • 一次过程进行多粒度进行指标汇总 • 支持用户自定义 11年11月26日星期六
  • 19. Myfox  -  分布式Mysql集群 • 基于Mysql  Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片规则 • 32个节点 11年11月26日星期六
  • 20. Myfox  -  分布式Mysq集群 路由信息库 M MyFOX(虚拟机) S 热节点(MySQL) 冷节点(MySQL) 15k SAS硬盘,300G * 12,8节点 7.2k SATA硬盘,1T * 12,8节点 MySQL MySQL MySQL MySQL MySQL = = = 14 11年11月26日星期六
  • 21. Myfox  -  数据查询 路 APC SQL解析 由 层 缓存 语义理解 查询路由 字段改写 分片SQL 计算规则 查 询 缓存 取分片数据 层 计 算 结果合并 层 11年11月26日星期六
  • 22. 挑战 • 淘宝涵盖100个行业的商品 • 属性值的条数2000W 如何获取任意多个商品属性值组 合产生的交易  ? 11年11月26日星期六
  • 24. Prom • T级数据量(7天总量hbase) • 千万级记录实时计算分析 • 以byte[]方式存储于hbase 11年11月26日星期六
  • 25. ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage 11年11月26日星期六
  • 26. Glider • 高性能异构数据中间层 • 统一restful数据输出接口 • 使用SQL  Like作为配置语法 • 整合多种数据源,不同数据源之间数据可以进行SQL关联操作 • Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP  API • 简单的数据二次加工 • 内置二级缓存 • 单虚拟机  8000qps  (4CPU/7G内存) • 请求分优先级 11年11月26日星期六
  • 27. 挑战 • 如何获取店铺实时数据?   • 不能直接主库上计算啊,主库表示压力很大。 11年11月26日星期六
  • 29. 银河  -  实时流处理平台 • 基于Actor模型的分布式流数据实时处理和计算框架 • 底层基于开源软件AKKA实现 • 消息既数据 • 客户端3台(1.5万/s),Hbase  5台 • 日处理3亿数据量 前端应用 数据源 实时流 实时流处理 计算 实时计算系统 数据缓存 数据反馈 11年11月26日星期六
  • 30. 银河  -  技术框架 Other&PNs ZK & & Data API Control & Management API Data Configurati Event Status Stage ZK PN on Dispatche Monitor Manager & Manager r & Config file Stage Container DB & AKKA 11年11月26日星期六
  • 32. 应用 • 实时行业总体数据 • 分类目实时商品成交排行 • 实时店铺汇总数据 • 实时店铺浏览、交易明细 • 实时用户成交排行 11年11月26日星期六
  • 34. 数据可视化 • 为什么要研究数据可视化? 数据大爆炸 、难懂 数据太枯燥 数据 关系 太复 杂 数据背后隐藏什么? 11年11月26日星期六
  • 39. 浪淘金 • 社会化电子商务数据可视化分析工具 • 淘宝数据平台与新浪微博合作项目 11年11月26日星期六
  • 41. 总结 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 43. 数据魔方 data.taobao.com 11年11月26日星期六
  • 44. 挑战 • 数据量巨大 • 商品更新 • 类目变化频繁 • 大单、走账 • 作弊、刷信用 • 数据安全 • 马太效应 11年11月26日星期六
  • 45. 数据魔方 • 淘宝第一个基于全量数据的数据产品 • 底层基于云计算 • 第一个成熟的、基于海量数据的商业数据产品 • 明年计划开放数据给第三方应用 11年11月26日星期六
  • 47. 淘宝数据产品架构 Cubex   Index   Mytaobao   LisLng   Glider   API   Myfox   Prom   Andes   SearchEngine   3rd   KVProxy   MySQL   TC   Redis   HBase   Cloud   47 11年11月26日星期六
  • 48. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 交易指标 成交店铺 行为指标 规模指标 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 上架店铺 金额 金额 搜索次数 上架商品 类目 性别 卖家信用 笔数 笔数 浏览人数 活跃店铺 品牌 地区 卖家类型 人数 人数 浏览次数 活跃商品 产品 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间 11年11月26日星期六
  • 51. 淘宝指数 • 淘宝下一个重要的数据产品 • 完全免费 • 2011正式发布 • 流行趋势、消费者研究 11年11月26日星期六
  • 55. 其他数据产品 • 淘宝魔镜 • TCIF • 母婴推荐 • 淘宝情报 • 卖家经营报告 • 商品评论分析系统 • 淘宝数据门户  * • LabsEngine  * 11年11月26日星期六
  • 56. 未来 • 开放 • 数据开放 • 平台开放 • 系统开源 • 实时   • 实时计算 • 流处理 11年11月26日星期六
  • 57. Thanks 微博:  @此处空无一人 kongwu@taobao.com 11年11月26日星期六