SlideShare a Scribd company logo
1 of 44
Download to read offline
ITA1024
www.ita1024.com
雪球大数据体系
实践
@唐福林 雪球首席架构师
2
❑ 关于雪球,关于我
❑ 雪球大数据体系搭建
❑ 大数据推广应用
❑ 未来规划和思考总结
大纲
3
❑ 雪球 聪明的投资者都在这里
❑ web 1.0:新闻资讯,股价信息,K线图
❑ web 2.0:SNS 订阅,分享,聊天
❑ web 3.0:移动 APP,交易闭环
❑ 非互联网:资产管理,私募工场
❑ https://xueqiu.com/about
关于雪球
❑ 员工 100+ ,技术人员占一半
❑ Java,Scala,Akka,Finagle,Nodejs,
Docker
❑ CDH,Hadoop,Impala,Hive,Storm
❑ 租用IDC机房自建私有云,正在往“公有云+
私有云”方向发展
关于雪球
❑ 前新浪微博架构师,微博ID @唐福林
❑ 微博短链 t.cn
❑ 微博计数器 redis,rediscounter
❑ 微博用户关系服务
❑ 微博稳定性、性能改进
关于我
❑ 雪球首席架构师,雪球ID @唐福林
❑ 性能,稳定性,代码质量改进
❑ 平台项目:用户关系,搜索,IM
❑ 基础组件,微服务容器建设
❑ XDC 雪球数据中心
关于我
❑ 起因
❑ 交易业务精细运营
❑ 服务端日志集中存储,分析
❑ 客户端行为日志收集,分析
搭建
8
❑ 定位
❑ 全量数据落地存储
❑ 新数据准实时流式访问计算
❑ 大数据交叉关联查询计算
搭建
9
❑ 模块组成
❑ 数据收集聚合系统:实时日志收集,
离线日志收集,数据库抽取
❑ 数据存储平台:队列系统, Nosql系统,
分布式文件系统
❑ 数据计算平台:实时计算,即席计算,
离线计算,任务调度
搭建
10
搭建
11
❑ 系统容量指标
❑ 存储容量:半年到一年的存储量,
200TB
❑ 计算容量:半年后,日均 200+ jobs
搭建
12
❑ 硬件准备
❑ namenode:2 台
❑ CPU:32core
❑ 内存:128G
❑ 系统盘:sas 硬盘 * 2 做 raid 10
❑ 数据盘:不需要
❑ 网卡:千兆 * 2
搭建
13
❑ 硬件准备
❑ datanode:8 台
❑ CPU:32core
❑ 内存:128G
❑ 系统盘:sas 硬盘 * 2 做 raid 10
❑ 数据盘: sata 硬盘 4T * 10,做 raid 0
❑ 网卡:千兆 * 2
搭建
14
❑ 软件准备
❑ CDH 5.4.3,Parcel
❑ Zookeeper,YARN,HDFS,HBase,
Hive,Impala,Hue,Kafka,
Sentry,Sqoop2,Oozie
❑ Storm,Spark
搭建
15
❑ 安装配置
❑ 机器账号权限:sudo with no
password
❑ Kerberos
搭建
16
❑ 数据导入
❑ DB:Sqoop 2
❑ Queue/File:Flume ng,Kafka
搭建
17
❑ 数据导入
❑ SNS社区:用户,关系,帖子,评论,组合
❑ 实时行情:股价,盘口,五档
❑ 服务端 Access Log,业务Log
❑ App 端用户行为日志
搭建
18
❑ 数据清洗
❑ ETL:自己写 shell job
❑ 定期压缩:hadoop streaming
搭建
19
❑ Meta信息管理
❑ Hive Metastore
❑ 库表字段说明,数值约束,数据来源,
更新频率等等,只能依靠手工文档
搭建
20
❑ 使用方式
❑ Hue
❑ Impala
❑ Hive
❑ Http API,Java Client
搭建
21
❑ 数据权限管理
❑ Ldap
❑ HDFS 文件属主隔离
搭建
22
❑ 资源列表
❑ 所有 web ui 的统一入口
搭建
23
搭建
24
❑ 面向工程师的推广
❑ Impala SQL 培训
❑ 线上业务技术指标
❑ 监控报警
推广应用
25
推广应用
26
❑ 监控报警
❑ Exception 流
❑ Metrics 流
❑ Access log 流
推广应用
27
❑ 面向产品,运营人员的推广
❑ 业务指标
❑ 用户行为分析
❑ 尝试过 umeng,flurry,zhugeio,最
终还是决定自己做
推广应用
28
❑ 用户转化
❑ 新增,留存,活跃,流失
推广应用
29
❑ 用户行为分析
❑ 点击路径,功能漏斗
❑ 常用功能
❑ 太阳图
❑ 火焰图
推广应用
30
❑ 用户分类对比
❑ 当前活跃 vs 本月流失
❑ 当前活跃 vs 本月新增
推广应用
31
❑ 大数据产品
❑ 反垃圾
❑ 推荐
❑ 用户画像,信用体系
❑ 广告
❑ 量化投资
推广应用
32
❑ 反垃圾
❑ 用户分类
❑ 文本聚类:类似帖子
❑ 行为聚类:同ip注册的用户
推广应用
33
❑ 推荐
❑ 用户分类
❑ 效果数据准实时监控
推广应用
34
❑ 用户画像,雪球信用系统
❑ 好用户,好贴,好组合:推荐
❑ 差用户,差贴:反垃圾
❑ 普通用户,普通贴:反 SEO,提升粘性
推广应用
35
❑ 广告
❑ 多维度条件筛选目标用户
❑ 用户分类对比广告效果
推广应用
36
❑ 量化投资
❑ 将社区和组合的数据作为投资决策的依
据来源之一
❑ 雪球大数据指数
❑ 雪球大数据基金
推广应用
37
❑ 深度挖掘
❑ 深入业务本质
❑ 更多的应用场景
❑ 更大的价值发挥
未来规划
38
❑ 效果改进
❑ 推荐效果改进
❑ 广告效果改进
❑ 量化投资的效果改进?
未来规划
39
❑ 大数据体系的价值
❑ 数据说话,杜绝拍脑袋
思考总结
40
❑ 什么时候开始
❑ 越早越好
思考总结
41
❑ 难点
❑ 数据意识,驱动频繁使用
❑ 全员使用:降低门槛
❑ 深度挖掘价值
思考总结
42
Keep	Calm	
And	
Ask	Me	Anything
43
• Thank You

More Related Content

Similar to 雪球大数据体系实践

高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
高速移動網路新時代  - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...高速移動網路新時代  - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
William Liang
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢
Ben Huang
 
腾讯组织架构及其战略
腾讯组织架构及其战略腾讯组织架构及其战略
腾讯组织架构及其战略
microgg
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探
vaemon
 
2010中国云计算调查报告
2010中国云计算调查报告2010中国云计算调查报告
2010中国云计算调查报告
ITband
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010
Jiang Zhu
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
 

Similar to 雪球大数据体系实践 (20)

高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
高速移動網路新時代  - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...高速移動網路新時代  - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
 
海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)
 
区块链与金融科技的未来
区块链与金融科技的未来区块链与金融科技的未来
区块链与金融科技的未来
 
保护您在云端中的信息——是时候回到基础
保护您在云端中的信息——是时候回到基础保护您在云端中的信息——是时候回到基础
保护您在云端中的信息——是时候回到基础
 
About grow up
About grow upAbout grow up
About grow up
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢
 
腾讯组织架构及其战略
腾讯组织架构及其战略腾讯组织架构及其战略
腾讯组织架构及其战略
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
2010中国云计算调查报告
2010中国云计算调查报告2010中国云计算调查报告
2010中国云计算调查报告
 
台中市創業平台建置計畫
台中市創業平台建置計畫台中市創業平台建置計畫
台中市創業平台建置計畫
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況
 
535 dust cloud
535 dust cloud535 dust cloud
535 dust cloud
 
壹點通行銷同步雲 雲端服務說明會簡報
壹點通行銷同步雲  雲端服務說明會簡報壹點通行銷同步雲  雲端服務說明會簡報
壹點通行銷同步雲 雲端服務說明會簡報
 
使用GoogleAppEngine建立个人信息中心
使用GoogleAppEngine建立个人信息中心使用GoogleAppEngine建立个人信息中心
使用GoogleAppEngine建立个人信息中心
 
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
 
使用Asp.net mvc搭配windows azure建構可擴展網站
使用Asp.net mvc搭配windows azure建構可擴展網站使用Asp.net mvc搭配windows azure建構可擴展網站
使用Asp.net mvc搭配windows azure建構可擴展網站
 
Powerpoint SHOW
Powerpoint SHOWPowerpoint SHOW
Powerpoint SHOW
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
 

More from fulin tang (10)

新浪微博开放平台中的 Redis 实践
新浪微博开放平台中的 Redis 实践新浪微博开放平台中的 Redis 实践
新浪微博开放平台中的 Redis 实践
 
Redis 坑
Redis 坑Redis 坑
Redis 坑
 
Gizzard, DAL and more
Gizzard, DAL and moreGizzard, DAL and more
Gizzard, DAL and more
 
音乐搜索的极致
音乐搜索的极致音乐搜索的极致
音乐搜索的极致
 
基于Lucene的站内搜索 Beta
基于Lucene的站内搜索 Beta基于Lucene的站内搜索 Beta
基于Lucene的站内搜索 Beta
 
基于 lucene 的站内搜索
基于 lucene 的站内搜索基于 lucene 的站内搜索
基于 lucene 的站内搜索
 
Voldemort Intro Tangfl
Voldemort Intro TangflVoldemort Intro Tangfl
Voldemort Intro Tangfl
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索
 
毕业设计-Slide
毕业设计-Slide毕业设计-Slide
毕业设计-Slide
 

雪球大数据体系实践