SlideShare a Scribd company logo
1 of 13
多维度指标的异常定位算法
赵淮毅 2019/07/13
团队介绍
中国科学院计算技术研究所
Institute Of Computing Technology Chinese Academy Of Sciences
中国科学院计算技术研究所(简称计算所)创建于1956年,是中国第一个专门从事
计算机科学技术综合性研究的学术机构。
赵淮毅 中国科学院大学 学士 中国科学院计算技术研究所
吴嘉皓 中国科学院大学 学士 中国科学院计算技术研究所
刁祖龙 中国科学院计算技术研究所 助理研究员
目录
• 赛题分析
• 算法设计
• 总结与展望
赛题分析
多维度指标的异常定位
1. 具有多个不同维度
2. 每个维度有多个不同属性值
3. 不同层级属性值存在可加和
性质
4. 观测值为叶子节点KPI取值
1. 当总指标发生异常时,
需要定位到交叉维度的
细粒度指标
2. 假设一个时刻的异常根
因只存在于同一个维度
(或交叉维度中)
1. 注入的异常满足等比例传播条件(ripple effect)
2. 可能为根因的元素组合非常多,搜索空间大
3. 根因的某些下层节点也表现出类似根因的“特性”
Sun Y, Zhao Y, Su Y, et al. Hotspot:
Anomaly localization for additive kpis
with multi-dimensional attributes[J].
IEEE Access, 2018, 6: 10909-10923.
目录
• 赛题分析
• 算法设计
• 总结与展望
算法设计
问题搜索空间大
•频繁项集挖掘
根因异常传播满足 ripple effect
原则
•类 Potential Score 评估方式
Potential Score 并不完全准确
(预测值不准,噪声)、存在
相似的上下层节点
• 奥卡姆剃刀修正
算法设计
频繁项集挖掘
1. 叶子节点异常时刻较前一时刻变化量的绝对值
2. 根据 1. 中计算得到的值对该叶子节点KPI进行扩充(对于 1. 中的值同时缩小一定比例,
减少所需时间)
3. 根据最小支持度,得到不同元素数目对应的频繁项集
算法设计
合理的元素组合
{'i01'},{'i06'},{'i38'},{'e08'}, {'c1'},{'c1','e08'},{'i01','e08'},{'i06','e08'},{'i38','e08'}
先按照所属维度或交叉维度进行划分
M1 = {'e08'}
M2 = {'c1'}
M3 = {'i01'},{'i06'},{'i38'}
M4 = {'c1','e08'}
M5 = {'i01','e08'}, {'i06','e08'},{'i38','e08'}
对上述划分中的元素进行组合
M1′ = {'e08'}
M2′ = {'c1’}
M3′ = {'i01'},{'i06'},{'i38'},{'i01','i06'}, {'i01','i38'},{'i06','i38'},{'i01','i06','i38’}
M4′ = {'c1','e08'}
M5′ = {'i01', 'e08'}, {'i06’, 'e08'},{'i38', 'e08'},{{'i01','e08'},{'i06','e08’}},{{'i01','e08'}, {'i38','e08’}},
{{'i06','e08'},{'i38','e08’}},{{'i01','e08'},{'i06','e08'}, {'i38','e08’}}
算法设计
Potential Score原理
1. 假设集合S为根因集合
2. 基于 ripple effect 推导出S下的叶子节点的值
3. 叶子节点的实际值与假设条件下推导出的值越接近则该集合S越有可能是根因
对Potential Score的改进
1. 根据对异常时刻附近的值的分析,选取异常时刻前三个时刻的平均值作为异常时刻的预
测值
2. 经过多次实验,选择JS散度作为距离函数
Sun Y, Zhao Y, Su Y, et al. Hotspot:
Anomaly localization for additive kpis with
multi-dimensional attributes[J]. IEEE
Access, 2018, 6: 10909-10923.
算法设计
奥卡姆剃刀
简约之法则
在该问题中的具体应用
1. 由于预测值不完全准确,注入的异常含有噪声,Potential Score 的结果需要进行修正
2. 考察 Pscore(Potential Score) 较高且接近的这部分根因集合,我们更倾向于选择简
单的结果。例如,若存在维度更低,或相同维度下属性值更少的根因集合,我们认为
这类集合为根因而非 Pscore 最高的集合
P1 = {'i38’},Pscore = 0.991
P2 = {'i01', 'i38'},Pscore = 0.993
目录
• 赛题分析
• 算法设计
• 总结与展望
总结与展望
后续工作
• 考虑到叶子结点时间序列数据的非线性特点,后续拟采用神经网络模型对异常时刻的
值进行预测
• 我们发现 Pscore 计算过程中,距离函数对结果也有一定影响。后续可研究不同距离函
数在数据上的不同表现
• 目前我们根据简洁性特点对结果进行修正。后续可加入不同属性的统计特性(如变化
量,变化比例)等,对 Pscore 得到的结果进一步调整
算法结果
• 预赛 F1-score 0.9086 排名第五
• 决赛 F1-score 0.9512 排名第三
主要贡献
• 解决了搜索空间过大,时间开销过大的问题
• Pscore 的计算中根据实际数据特点,取JS散度作为距离函数,取异常时刻的前三时刻
平均作为异常时刻预测值
• 考虑到预测值不可能完全准确,且异常中含有噪声,根据异常根因的简洁性等特点,
对 Pscore 给出的结果进行修正
第三名 3rd zhyict

More Related Content

More from Leo Zhou

第二名 2nd 火眼金睛
第二名 2nd 火眼金睛第二名 2nd 火眼金睛
第二名 2nd 火眼金睛Leo Zhou
 
第四名 4th H3C AI Institute
第四名 4th H3C AI Institute第四名 4th H3C AI Institute
第四名 4th H3C AI InstituteLeo Zhou
 
第一名 1st Bocoiops
第一名 1st Bocoiops第一名 1st Bocoiops
第一名 1st BocoiopsLeo Zhou
 
第六名 6th Aurora
第六名 6th Aurora第六名 6th Aurora
第六名 6th AuroraLeo Zhou
 
AI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving NetworkAI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving NetworkLeo Zhou
 
2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用Leo Zhou
 
1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb1.6 米嘉 gobuildweb
1.6 米嘉 gobuildwebLeo Zhou
 
1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑Leo Zhou
 
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用Leo Zhou
 
Protocol libraries the right way
Protocol libraries the right wayProtocol libraries the right way
Protocol libraries the right wayLeo Zhou
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍Leo Zhou
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践Leo Zhou
 
我的互联网运维理论与实践
我的互联网运维理论与实践我的互联网运维理论与实践
我的互联网运维理论与实践Leo Zhou
 
如何选择 Docker 监控方案
如何选择 Docker 监控方案如何选择 Docker 监控方案
如何选择 Docker 监控方案Leo Zhou
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍Leo Zhou
 
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James BennettThe net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James BennettLeo Zhou
 
Hypothesis randomised testing for django
Hypothesis randomised testing for djangoHypothesis randomised testing for django
Hypothesis randomised testing for djangoLeo Zhou
 
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享Leo Zhou
 
动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法Leo Zhou
 
MySQL运维那些事
MySQL运维那些事 MySQL运维那些事
MySQL运维那些事 Leo Zhou
 

More from Leo Zhou (20)

第二名 2nd 火眼金睛
第二名 2nd 火眼金睛第二名 2nd 火眼金睛
第二名 2nd 火眼金睛
 
第四名 4th H3C AI Institute
第四名 4th H3C AI Institute第四名 4th H3C AI Institute
第四名 4th H3C AI Institute
 
第一名 1st Bocoiops
第一名 1st Bocoiops第一名 1st Bocoiops
第一名 1st Bocoiops
 
第六名 6th Aurora
第六名 6th Aurora第六名 6th Aurora
第六名 6th Aurora
 
AI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving NetworkAI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving Network
 
2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用
 
1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb
 
1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑
 
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用
 
Protocol libraries the right way
Protocol libraries the right wayProtocol libraries the right way
Protocol libraries the right way
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
 
我的互联网运维理论与实践
我的互联网运维理论与实践我的互联网运维理论与实践
我的互联网运维理论与实践
 
如何选择 Docker 监控方案
如何选择 Docker 监控方案如何选择 Docker 监控方案
如何选择 Docker 监控方案
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍
 
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James BennettThe net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James Bennett
 
Hypothesis randomised testing for django
Hypothesis randomised testing for djangoHypothesis randomised testing for django
Hypothesis randomised testing for django
 
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
 
动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法
 
MySQL运维那些事
MySQL运维那些事 MySQL运维那些事
MySQL运维那些事
 

第三名 3rd zhyict