SlideShare ist ein Scribd-Unternehmen logo
1 von 35
Downloaden Sie, um offline zu lesen
在线社交媒体分析型查询基准评测初探
Towards Benchmarking Online Social Media
Analytical Queries
钱卫宁(QIAN, Weining)
华东师范大学 (East China Normal University)
云计算与大数据研究中心(C3BD)
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

2
社交媒体

感知世界的一种重要媒介
2013-12-10

BDTC 2013, Beijing

3
社交媒体

2013-12-10

BDTC 2013, Beijing

4
社交媒体数据分析

http://database.ecnu.edu.cn/microblogcube/
2013-12-10

BDTC 2013, Beijing

5
社交媒体上的分析型查询
• 社交网络与传播网络特征分析
– 图模式匹配

• 热点分析
– 图和内容的统计

• 时序、地域分析
– 时空查询

在舆情监控与分析、社交广告、新型客户关
系管理中有着广泛的应用
2013-12-10

BDTC 2013, Beijing

6
为何需要基准评测?
•
•
•
•
•

了解系统的优缺点
促进研究与技术进步
科学地研究技术的性能
跟踪相关领域的发展
使得竞争性的系统具有可比性

2013-12-10

BDTC 2013, Beijing

7
数据库性能基准评测的意义
• 现代数据库系统的强大功能得益于上世纪
数据库基准发展过程中对性能问题各个击
破的解决办法
Jim Gray. Thousands of DebitCredit
Transactions-Per-Second:
Easy and Inexpensive.
2005

2013-12-10

BDTC 2013, Beijing

8
为何需要社交媒体分析型查询
基准评测?
• 必要性:存在大量海量社交媒体数据上的
共性分析型任务
• 不可替代性:新型的数据与负载
– 社交网络+内容+时序
– 幂率分布无处不在:查询代价估计困难

• “One size fits a bunch”

– 实现多样:SQL vs. NOSQL vs. NewSQL

2013-12-10

BDTC 2013, Beijing

9
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

10
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

11
BSMA:数据
• 采用关系模型描述
– 语义明确

• 允许非关系实现
– 通过查询wrapper实现

• 基于真实数据
• 提供可配置的数据生
成器

2013-12-10

BDTC 2013, Beijing

12
数据模式

2013-12-10

BDTC 2013, Beijing

13
真实数据获取

Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou:
Towards modeling popularity of microblogs.
Frontiers of Computer Science 7(2): 171-184 (2013)
2013-12-10

BDTC 2013, Beijing

14
真实数据
• 关注网络
–
–
–
–
–

种子用户:11位律师/意见领袖和21位学者/工程师
第2层用户:120,000+用户
第3层用户:160+万用户
第4层用户:1800+万用户(不完整)
超过10亿个关注关系

• 前3层用户的微博
– 从2009年8月至2012年6月
– 超过4.8亿条微博
2013-12-10

BDTC 2013, Beijing

15
真实数据的后处理
• 后处理目的:避免隐私和版权的问题
• 后处理操作:
1.匿名化
2.转发链恢复(尽力而为)
3.去内容(出于匿名化目的)

• 保留部分热点事件标签

2013-12-10

BDTC 2013, Beijing

16
数据生成器

2013-12-10

BDTC 2013, Beijing

17
较准确地模拟真实数据

时间线的分布
2013-12-10

BDTC 2013, Beijing

18
较准确地模拟真实数据

传播网络特征
2013-12-10

BDTC 2013, Beijing

19
较准确地模拟真实数据

用户行为特征
2013-12-10

BDTC 2013, Beijing

20
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

21
BSMA:负载
19类查询
• 社交网络查询

– 如:列出用户A和B的公共“粉丝”

• 热点查询

– 热点可以是:用户、微博、话题,...
– 如:列出转发次数最多的微博

• 时间线查询

– 如:列出A的关注者最近的10条微博

2013-12-10

BDTC 2013, Beijing

22
查询示例(Q12)

"Rank the tweets appearing in A's followees’
timelines according to the number of retweets."

⨝
⨝
⨝

2013-12-10

BDTC 2013, Beijing

23
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

24
BSMA性能测试工具(基于YCSB)
• YCSB: Yahoo Cloud Service Benchmark

– http://wiki.github.com/brianfrankcooper/YCSB/

• BSMA的修改

– 查询参数(随机)生成

• 用户ID、top-k、时间窗口等

– 查询wrappers
• 面向不同实现

– https://github.com/c3bd/BSMA
2013-12-10

BDTC 2013, Beijing

25
度量
• 吞吐量
– 在不同线程数设定下的最高吞吐量

• 延时
– 在第二高吞吐量设定下的系统(平均)延时

• 可伸缩性
– 吞吐量/延时曲线的斜率

2013-12-10

BDTC 2013, Beijing

26
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

27
WISE 2012 Challenge
Performance Track

• BSMA的早期版本作为WISE 2012 Challenge
Performance Track公开
– http://www.wise2012.cs.ucy.ac.cy/challenge.html
– https://wnqian.wordpress.com/research/wise2012challenge/

• 四组参赛者
– 专用内存系统
– 采用二级索引的HBase系统
– 经过优化的基于SQLLite的系统
– 基于B+-树,针对不同查询分别优化的系统
2013-12-10

BDTC 2013, Beijing

28
部分评测结果

2013-12-10

"Find the set of people who share the
same followee with the specified user."

BDTC 2013, Beijing

29
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

30
社交媒体上的分析型查询处理挑战
• 社交网络查询
– 大表连接
– 耗时、耗内存

• 数据分布偏斜
– 幂率分布
– 不同参数造成截然不同的
查询性能

• 时间线查询
– 保持结果的时序
– 中间结果与最终结果排序

2013-12-10

BDTC 2013, Beijing

31
其它相关评测
• LinkBench:社交网络上的事务处理评测
– https://github.com/facebook/linkbench

• LDBC:Linked Data Benchmark Council
– EU-FP7项目:http://ldbc.eu/
– SNB: Social Network Benchmark
– SPB: Semantic Publishing Benchmark

2013-12-10

BDTC 2013, Beijing

32
后续工作
• 添加数据(数据生成器)的语义
– 更多的事件/语义标签
– (模拟)内容产生

• 更多样的负载
– 幂率分布中代表性点的取样
– 社交网络查询、热点查询、时间线查询的结合
– 流式负载和相应的新的性能度量

• 针对不同负载采用不同性能度量
• 更多系统的评测
2013-12-10

BDTC 2013, Beijing

33
小结
• BSMA:社交媒体上分析型查询性能评测的初步尝试
– 数据:
• https://wnqian.wordpress.com/research/wise2012challenge/

– 数据生成器与性能测试工具:
• https://github.com/c3bd/BSMA

• 后续工作
– 更真实与有代表性的场景模拟
– 更细致的性能测试与分析

2013-12-10

BDTC 2013, Beijing

34
2013-12-10

BDTC 2013, Beijing

35

Weitere ähnliche Inhalte

Ähnlich wie 钱卫宁:在线社交媒体分析型查询基准评测初探

基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究学峰 司
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测hdhappy001
 
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展借助 MongoDB 实现扩展
借助 MongoDB 实现扩展 MongoDB
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copyJacky Zou
 
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用tudoucatch
 
2006/11/20 Proposal
2006/11/20 Proposal2006/11/20 Proposal
2006/11/20 Proposalfeiwin
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction FEG
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析Yong Zhang
 
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall DesignCnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Designwalterwang34
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing TechnologiesJazz Yao-Tsung Wang
 
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networksDensifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks柏宇 陳
 
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来陈竞凯 透过历史看未来
陈竞凯 透过历史看未来drewz lin
 
基于用户行为的数据分析
基于用户行为的数据分析基于用户行为的数据分析
基于用户行为的数据分析mysqlops
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkabanhdhappy001
 
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准hdhappy001
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 

Ähnlich wie 钱卫宁:在线社交媒体分析型查询基准评测初探 (19)

基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
 
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展借助 MongoDB 实现扩展
借助 MongoDB 实现扩展
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copy
 
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用
 
2006/11/20 Proposal
2006/11/20 Proposal2006/11/20 Proposal
2006/11/20 Proposal
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析
 
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall DesignCnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Design
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing Technologies
 
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networksDensifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks
 
網路規劃與設計
網路規劃與設計網路規劃與設計
網路規劃與設計
 
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来陈竞凯 透过历史看未来
陈竞凯 透过历史看未来
 
基于用户行为的数据分析
基于用户行为的数据分析基于用户行为的数据分析
基于用户行为的数据分析
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
 
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准
 
work@baidu 2015
work@baidu 2015work@baidu 2015
work@baidu 2015
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 

Mehr von hdhappy001

袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战hdhappy001
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐hdhappy001
 
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践hdhappy001
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进hdhappy001
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架hdhappy001
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎hdhappy001
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术hdhappy001
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scalehdhappy001
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术hdhappy001
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sqlhdhappy001
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台hdhappy001
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略hdhappy001
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展hdhappy001
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensionshdhappy001
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统hdhappy001
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoyahdhappy001
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarkshdhappy001
 

Mehr von hdhappy001 (20)

袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
 
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
 

钱卫宁:在线社交媒体分析型查询基准评测初探