Suche senden
Hochladen
刘书良:基于大数据公共云平台的Dsp技术
•
2 gefällt mir
•
1,005 views
H
hdhappy001
Folgen
BDTC 2013 Beijing China
Weniger lesen
Mehr lesen
Melden
Teilen
Melden
Teilen
1 von 17
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
Zhong Bo Tian
云计算技术与应用
云计算技术与应用
Yang Guanjun
課程1 1:雲端運算初探
課程1 1:雲端運算初探
vaemon
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
05 杨志丰
05 杨志丰
锐 张
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
Empfohlen
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
Zhong Bo Tian
云计算技术与应用
云计算技术与应用
Yang Guanjun
課程1 1:雲端運算初探
課程1 1:雲端運算初探
vaemon
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
05 杨志丰
05 杨志丰
锐 张
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
X program-within-a-month
X program-within-a-month
Chao Zhu
Cnut 容器大会 京东
Cnut 容器大会 京东
tommy tommy
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
hdhappy001
如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技
Hardway Hou
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2
hdhappy001
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
hdhappy001
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
Sijia Lyu
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
hdhappy001
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
hdhappy001
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
hdhappy001
Zh tw cloud computing era
Zh tw cloud computing era
TrendProgContest13
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
Capital onehadoopintro
Capital onehadoopintro
Doug Chang
Cloud computing era
Cloud computing era
TrendProgContest13
Introduction to hadoop and hdfs
Introduction to hadoop and hdfs
TrendProgContest13
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
acelyc1112009
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
Riquelme624
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
Xu Wang
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
Weitere ähnliche Inhalte
Was ist angesagt?
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
X program-within-a-month
X program-within-a-month
Chao Zhu
Cnut 容器大会 京东
Cnut 容器大会 京东
tommy tommy
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
hdhappy001
如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技
Hardway Hou
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
Was ist angesagt?
(6)
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
X program-within-a-month
X program-within-a-month
Cnut 容器大会 京东
Cnut 容器大会 京东
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Andere mochten auch
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2
hdhappy001
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
hdhappy001
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
Sijia Lyu
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
hdhappy001
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
hdhappy001
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
hdhappy001
Zh tw cloud computing era
Zh tw cloud computing era
TrendProgContest13
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
Capital onehadoopintro
Capital onehadoopintro
Doug Chang
Cloud computing era
Cloud computing era
TrendProgContest13
Introduction to hadoop and hdfs
Introduction to hadoop and hdfs
TrendProgContest13
Andere mochten auch
(11)
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
Ad network、ad exchange、dsp、ssp、rtb_和dmp介绍
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
Zh tw cloud computing era
Zh tw cloud computing era
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
Capital onehadoopintro
Capital onehadoopintro
Cloud computing era
Cloud computing era
Introduction to hadoop and hdfs
Introduction to hadoop and hdfs
Ähnlich wie 刘书良:基于大数据公共云平台的Dsp技术
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
acelyc1112009
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
Riquelme624
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
Xu Wang
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介
NVIDIA Japan
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
ikewu83
Big Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
Ren-Hao (PAN) Pan
淘宝双11双12案例分享
淘宝双11双12案例分享
vanadies10
如何快速实现数据编织架构
如何快速实现数据编织架构
Denodo
Top100summit东软 孙广宇-uni sdp基于html5构建的跨平台的统一智能设备解决方案
Top100summit东软 孙广宇-uni sdp基于html5构建的跨平台的统一智能设备解决方案
drewz lin
深入淺出 AWS 大數據工具
深入淺出 AWS 大數據工具
Amazon Web Services
How to continuously improve Apache Pegasus in complex toB scenarios
How to continuously improve Apache Pegasus in complex toB scenarios
acelyc1112009
Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲
Riquelme624
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Chao Zhu
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
美团点评技术团队
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Denodo
IBM开放云架构
IBM开放云架构
Li Yi
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chen
kuoyichen
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
Ähnlich wie 刘书良:基于大数据公共云平台的Dsp技术
(20)
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
Big Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
淘宝双11双12案例分享
淘宝双11双12案例分享
如何快速实现数据编织架构
如何快速实现数据编织架构
Top100summit东软 孙广宇-uni sdp基于html5构建的跨平台的统一智能设备解决方案
Top100summit东软 孙广宇-uni sdp基于html5构建的跨平台的统一智能设备解决方案
深入淺出 AWS 大數據工具
深入淺出 AWS 大數據工具
How to continuously improve Apache Pegasus in complex toB scenarios
How to continuously improve Apache Pegasus in complex toB scenarios
Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
IBM开放云架构
IBM开放云架构
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chen
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
Mehr von hdhappy001
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
hdhappy001
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
hdhappy001
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
hdhappy001
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
hdhappy001
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
hdhappy001
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
hdhappy001
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
hdhappy001
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探
hdhappy001
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
hdhappy001
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
hdhappy001
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
hdhappy001
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
hdhappy001
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
hdhappy001
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
hdhappy001
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
hdhappy001
Ted yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
hdhappy001
Michael stack -the state of apache h base
Michael stack -the state of apache h base
hdhappy001
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stinger
hdhappy001
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
hdhappy001
Mehr von hdhappy001
(20)
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
Ted yu:h base and hoya
Ted yu:h base and hoya
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
Michael stack -the state of apache h base
Michael stack -the state of apache h base
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stinger
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
刘书良:基于大数据公共云平台的Dsp技术
1.
基于公共云平台的DSP技术 刘书良(百川通联) liushuliang@baicdata.com
2.
如何更高效处理高并发及大数据? • Instagram:7个工程师 &&
十亿美金的故事 • 大量使用amazon云服务 • 保持简单、不重复制造轮子 • 采用已经被证明了的技术 • 百川通联: • 架构在公共云服务平台基础之上 • 使用大量开源软件 • 搭建起国内第一个基于公共云服务的DSP、DMP平台
3.
DSP的一些背景知识
4.
DSP基本问题: • 第三方adexchange每日可向DSP发送超过50亿流量 • Bidder:实时广告调度决策及出价算法 •
Redis Proxy && Redis Cluster:redis数据库管理,支持对redis 高并发的请求 • 广告决策支撑数据运算: • cookie mapping数据(adexchange与dsp间cookie对应关系) • 用户cookie数据(兴趣、性别或者是自定义标签) • 广告实时投放数据、结算数据
5.
线上请求处理流程:
6.
Online模块性能基本状况: • 每天请求量超过50亿次,峰值请求达到5万QPS • 每个请求的延时要小于100ms •
出价服务器与adexchange服务器通常不在同一个城市,这样意 味这10-40ms的网络延时 • 对于每个请求,需要访问四次redis • 决策算法时间复杂度较高
7.
QPS接入过程中遇到的问题: • 云服务器安全策略把adexchange流量当成了DDOS攻击 • 与云平台运维沟通,提高对指定ip的qps上限值限制 •
云服务器单独服务器pps上限值 • 前期想使用bidder高配置的云服务器,由于pps限制,cpu利用 率一直上不去,浪费了计算资源 • 把高配服务器换成几台低配服务器:1台4核,8G内存服务器替 换成4台1核,512M内存的云服务器
8.
QPS接入过程中遇到的问题: • 流量超过单个负载均衡实例上限值 • 与云平台运维沟通,提高负载均衡实例的QPS的上限值 •
Redis问题:10亿key_value对,峰值每秒20万次请求 • 单台云主机pps上限问题,决定了少数云主机请求无法满足需求 • 内存占用过多的问题,禁用redis自带过期的设置,改为线下程 序自动过期数据,内存占用减少30%
9.
QPS接入过程中遇到的问题: • Redis问题: • Twemproxy:一个关于内存数据库的代理服务器 •
将大表拆分成很多小表,部署到不同服务器的redis表中,保 证将数据平均分配到不同服务器 • 线上请求被平均分配到各台服务器上 • 目前已经通过Twemproxy管理上百个redis进程
10.
云主机日志运算问题: • 当线上流量达到一定时,单台log服务器出现瓶颈: • 每秒产生的日志峰值在6万条左右,一天产生的日志量达到1T •
通过单击接收rsyslog接受日志,已经达到单机pps上限值,造 成丢包现象 • 云服务器磁盘i/o受限设计原因,顺序读的速度小于20M左右, 也达到上限,写的速度更慢一些 • 由于单机上磁盘IO受限,单机上的数据无法进行远程拷贝
11.
云主机日志运算问题: • 在不影响业务的情况下,将日志发送到不同的服务器上,避免单台 服务器pps上限、i/o上限 • 对关键数据适当进行冗余备份,减少计算程序远程拷贝数据 •
使用rsyslog管道,减少日志硬盘读取 • 使用redis作为缓存,减少各个服务器读取硬盘的次数 • 将不同的离线任务,进行拆分,部署到不同的服务器上
12.
使用自建Hadoop集群进行离线计算: • 问题: • 目前国内市场还没有开放的公共云平台,提供类似Hadoop MapReduce服务。需要在云主机外再建立一个Hadoop机器。 •
数据远程传输浪费了带宽成本 • 期望尽快出现能提供Hadoop机器计算的商业平台出现
13.
使用自建Hadoop集群进行离线计算: • 对于实时性或者数据量巨大的运算,我们自建了hadoop集群 • 人群定义: •
300个标准人群类别 • 给定人群进行扩展:look alick算法 • 点击率模型: • Logistic regression • 深度统计分析报表: • 例如:用户行为与广告点击之间的关联分析
14.
小结:云主机选购技巧 • 一定要准确评估内存、cpu、带宽、磁盘的峰值 • Bidder高cpu、redis服务器高内存 •
在某些情况下: • 1台* 4核4G内存服务器 vs 4台* 1核1G内存服务器 • 很大概率对应1台实体服务器 vs 很大概率对应多台实体服务器 • 遇到单台物理机瓶颈(pps/cpu) >> 遇到单台物理机瓶颈 • 内存、cpu、带宽、磁盘可以按需定义,动态调整
15.
小结:技术方面 • 对于线上高并发、实时请求,基于国内的商业云平台基本可以搞定 • DNS、CDN、负载均衡、开源nosql、虚拟服务器、云监控 •
虚拟服务器,磁盘IO是瓶颈,云平台需要考虑支持SSD硬盘 • 公共云平台对于类Hadoop的离线数据计算平台还相对较弱
16.
小结:成本 • 以百川DSP为例: • 公共云平台提供更多计算资源,便于将研发精力专注出价策略、 数据挖掘等算法方面 •
研发周期大大加快 • 测试服务器、svn都部署在云上,运维、IT人员为0.5人 • 硬件成本及研发成本大幅度下降 • 接下来,以最有效率的方式: • 整合互联网、无线互联网、及其他智能终端上的数据 • 做数据挖掘和精准营销
17.
Thanks! 百川通联 www.bcdata.cn 17
Jetzt herunterladen