Suche senden
Hochladen
钱卫宁:在线社交媒体分析型查询基准评测初探
•
0 gefällt mir
•
916 views
H
hdhappy001
Folgen
BDTC 2013 Beijing China
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 35
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
在线社交媒体分析型查询基准评测初探
在线社交媒体分析型查询基准评测初探
Weining Qian
一淘广告机器学习
一淘广告机器学习
Shaoning Pan
张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析
Leechael
海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
豆瓣网技术架构变迁
豆瓣网技术架构变迁
reinhardx
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
hdhappy001
Empfohlen
在线社交媒体分析型查询基准评测初探
在线社交媒体分析型查询基准评测初探
Weining Qian
一淘广告机器学习
一淘广告机器学习
Shaoning Pan
张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析
Leechael
海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
豆瓣网技术架构变迁
豆瓣网技术架构变迁
reinhardx
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
hdhappy001
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
学峰 司
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
hdhappy001
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展
MongoDB
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
Riquelme624
Report 106553012 - copy
Report 106553012 - copy
Jacky Zou
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用
tudoucatch
2006/11/20 Proposal
2006/11/20 Proposal
feiwin
machine learning introduction
machine learning introduction
FEG
用户研究中的数据分析
用户研究中的数据分析
Yong Zhang
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Design
walterwang34
High Throughput Computing Technologies
High Throughput Computing Technologies
Jazz Yao-Tsung Wang
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks
柏宇 陳
網路規劃與設計
網路規劃與設計
Hsuan-Chih Wang
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来
drewz lin
基于用户行为的数据分析
基于用户行为的数据分析
mysqlops
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
hdhappy001
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准
hdhappy001
work@baidu 2015
work@baidu 2015
XiaoTao (Tony) Tang
Greenplum技术
Greenplum技术
锐 张
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
hdhappy001
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
hdhappy001
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
hdhappy001
Weitere ähnliche Inhalte
Ähnlich wie 钱卫宁:在线社交媒体分析型查询基准评测初探
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
学峰 司
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
hdhappy001
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展
MongoDB
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
Riquelme624
Report 106553012 - copy
Report 106553012 - copy
Jacky Zou
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用
tudoucatch
2006/11/20 Proposal
2006/11/20 Proposal
feiwin
machine learning introduction
machine learning introduction
FEG
用户研究中的数据分析
用户研究中的数据分析
Yong Zhang
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Design
walterwang34
High Throughput Computing Technologies
High Throughput Computing Technologies
Jazz Yao-Tsung Wang
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks
柏宇 陳
網路規劃與設計
網路規劃與設計
Hsuan-Chih Wang
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来
drewz lin
基于用户行为的数据分析
基于用户行为的数据分析
mysqlops
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
hdhappy001
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准
hdhappy001
work@baidu 2015
work@baidu 2015
XiaoTao (Tony) Tang
Greenplum技术
Greenplum技术
锐 张
Ähnlich wie 钱卫宁:在线社交媒体分析型查询基准评测初探
(19)
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
Report 106553012 - copy
Report 106553012 - copy
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用
2006/11/20 Proposal
2006/11/20 Proposal
machine learning introduction
machine learning introduction
用户研究中的数据分析
用户研究中的数据分析
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Design
High Throughput Computing Technologies
High Throughput Computing Technologies
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks
網路規劃與設計
網路規劃與設計
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来
基于用户行为的数据分析
基于用户行为的数据分析
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
张晓:大数据存储与访问测试基准
张晓:大数据存储与访问测试基准
work@baidu 2015
work@baidu 2015
Greenplum技术
Greenplum技术
Mehr von hdhappy001
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
hdhappy001
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
hdhappy001
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
hdhappy001
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
hdhappy001
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
hdhappy001
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
hdhappy001
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
hdhappy001
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
hdhappy001
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
hdhappy001
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
hdhappy001
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术
hdhappy001
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
hdhappy001
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
hdhappy001
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
hdhappy001
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
hdhappy001
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
hdhappy001
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
hdhappy001
Ted yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
hdhappy001
Mehr von hdhappy001
(20)
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
Ted yu:h base and hoya
Ted yu:h base and hoya
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
钱卫宁:在线社交媒体分析型查询基准评测初探
1.
在线社交媒体分析型查询基准评测初探 Towards Benchmarking Online
Social Media Analytical Queries 钱卫宁(QIAN, Weining) 华东师范大学 (East China Normal University) 云计算与大数据研究中心(C3BD)
2.
提纲 • 社交媒体与分析型查询处理 • BSMA –
数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 2
3.
社交媒体 感知世界的一种重要媒介 2013-12-10 BDTC 2013, Beijing 3
4.
社交媒体 2013-12-10 BDTC 2013, Beijing 4
5.
社交媒体数据分析 http://database.ecnu.edu.cn/microblogcube/ 2013-12-10 BDTC 2013, Beijing 5
6.
社交媒体上的分析型查询 • 社交网络与传播网络特征分析 – 图模式匹配 •
热点分析 – 图和内容的统计 • 时序、地域分析 – 时空查询 在舆情监控与分析、社交广告、新型客户关 系管理中有着广泛的应用 2013-12-10 BDTC 2013, Beijing 6
7.
为何需要基准评测? • • • • • 了解系统的优缺点 促进研究与技术进步 科学地研究技术的性能 跟踪相关领域的发展 使得竞争性的系统具有可比性 2013-12-10 BDTC 2013, Beijing 7
8.
数据库性能基准评测的意义 • 现代数据库系统的强大功能得益于上世纪 数据库基准发展过程中对性能问题各个击 破的解决办法 Jim Gray.
Thousands of DebitCredit Transactions-Per-Second: Easy and Inexpensive. 2005 2013-12-10 BDTC 2013, Beijing 8
9.
为何需要社交媒体分析型查询 基准评测? • 必要性:存在大量海量社交媒体数据上的 共性分析型任务 • 不可替代性:新型的数据与负载 –
社交网络+内容+时序 – 幂率分布无处不在:查询代价估计困难 • “One size fits a bunch” – 实现多样:SQL vs. NOSQL vs. NewSQL 2013-12-10 BDTC 2013, Beijing 9
10.
提纲 • 社交媒体与分析型查询处理 • BSMA –
数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 10
11.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 11
12.
BSMA:数据 • 采用关系模型描述 – 语义明确 •
允许非关系实现 – 通过查询wrapper实现 • 基于真实数据 • 提供可配置的数据生 成器 2013-12-10 BDTC 2013, Beijing 12
13.
数据模式 2013-12-10 BDTC 2013, Beijing 13
14.
真实数据获取 Haixin Ma, Weining
Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou: Towards modeling popularity of microblogs. Frontiers of Computer Science 7(2): 171-184 (2013) 2013-12-10 BDTC 2013, Beijing 14
15.
真实数据 • 关注网络 – – – – – 种子用户:11位律师/意见领袖和21位学者/工程师 第2层用户:120,000+用户 第3层用户:160+万用户 第4层用户:1800+万用户(不完整) 超过10亿个关注关系 • 前3层用户的微博 –
从2009年8月至2012年6月 – 超过4.8亿条微博 2013-12-10 BDTC 2013, Beijing 15
16.
真实数据的后处理 • 后处理目的:避免隐私和版权的问题 • 后处理操作: 1.匿名化 2.转发链恢复(尽力而为) 3.去内容(出于匿名化目的) •
保留部分热点事件标签 2013-12-10 BDTC 2013, Beijing 16
17.
数据生成器 2013-12-10 BDTC 2013, Beijing 17
18.
较准确地模拟真实数据 时间线的分布 2013-12-10 BDTC 2013, Beijing 18
19.
较准确地模拟真实数据 传播网络特征 2013-12-10 BDTC 2013, Beijing 19
20.
较准确地模拟真实数据 用户行为特征 2013-12-10 BDTC 2013, Beijing 20
21.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 21
22.
BSMA:负载 19类查询 • 社交网络查询 – 如:列出用户A和B的公共“粉丝” •
热点查询 – 热点可以是:用户、微博、话题,... – 如:列出转发次数最多的微博 • 时间线查询 – 如:列出A的关注者最近的10条微博 2013-12-10 BDTC 2013, Beijing 22
23.
查询示例(Q12) "Rank the tweets
appearing in A's followees’ timelines according to the number of retweets." ⨝ ⨝ ⨝ 2013-12-10 BDTC 2013, Beijing 23
24.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 24
25.
BSMA性能测试工具(基于YCSB) • YCSB: Yahoo
Cloud Service Benchmark – http://wiki.github.com/brianfrankcooper/YCSB/ • BSMA的修改 – 查询参数(随机)生成 • 用户ID、top-k、时间窗口等 – 查询wrappers • 面向不同实现 – https://github.com/c3bd/BSMA 2013-12-10 BDTC 2013, Beijing 25
26.
度量 • 吞吐量 – 在不同线程数设定下的最高吞吐量 •
延时 – 在第二高吞吐量设定下的系统(平均)延时 • 可伸缩性 – 吞吐量/延时曲线的斜率 2013-12-10 BDTC 2013, Beijing 26
27.
提纲 • 社交媒体与分析型查询处理 • BSMA –
数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 27
28.
WISE 2012 Challenge Performance
Track • BSMA的早期版本作为WISE 2012 Challenge Performance Track公开 – http://www.wise2012.cs.ucy.ac.cy/challenge.html – https://wnqian.wordpress.com/research/wise2012challenge/ • 四组参赛者 – 专用内存系统 – 采用二级索引的HBase系统 – 经过优化的基于SQLLite的系统 – 基于B+-树,针对不同查询分别优化的系统 2013-12-10 BDTC 2013, Beijing 28
29.
部分评测结果 2013-12-10 "Find the set
of people who share the same followee with the specified user." BDTC 2013, Beijing 29
30.
提纲 • 社交媒体与分析型查询处理 • BSMA –
数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 30
31.
社交媒体上的分析型查询处理挑战 • 社交网络查询 – 大表连接 –
耗时、耗内存 • 数据分布偏斜 – 幂率分布 – 不同参数造成截然不同的 查询性能 • 时间线查询 – 保持结果的时序 – 中间结果与最终结果排序 2013-12-10 BDTC 2013, Beijing 31
32.
其它相关评测 • LinkBench:社交网络上的事务处理评测 – https://github.com/facebook/linkbench •
LDBC:Linked Data Benchmark Council – EU-FP7项目:http://ldbc.eu/ – SNB: Social Network Benchmark – SPB: Semantic Publishing Benchmark 2013-12-10 BDTC 2013, Beijing 32
33.
后续工作 • 添加数据(数据生成器)的语义 – 更多的事件/语义标签 –
(模拟)内容产生 • 更多样的负载 – 幂率分布中代表性点的取样 – 社交网络查询、热点查询、时间线查询的结合 – 流式负载和相应的新的性能度量 • 针对不同负载采用不同性能度量 • 更多系统的评测 2013-12-10 BDTC 2013, Beijing 33
34.
小结 • BSMA:社交媒体上分析型查询性能评测的初步尝试 – 数据: •
https://wnqian.wordpress.com/research/wise2012challenge/ – 数据生成器与性能测试工具: • https://github.com/c3bd/BSMA • 后续工作 – 更真实与有代表性的场景模拟 – 更细致的性能测试与分析 2013-12-10 BDTC 2013, Beijing 34
35.
2013-12-10 BDTC 2013, Beijing 35
Jetzt herunterladen