SlideShare ist ein Scribd-Unternehmen logo
1 von 15
多维监测指标异常定位
AIOps 挑战赛答辩
队伍:火眼金睛
周波 2019/5/13 北京
AIOps Challenge
多维监测指标异常定位AIOps Challenge
团队介绍
队伍:火眼金睛
单位:国家互联网应急中心(CNCERT) 运维保障部
领队:周波 2017年清华大学博士毕业
成员:孙发强 2017年中科院计算所博士毕业
答辩提纲
赛题分析
方案介绍
总结讨论
赛题分析:多维监测指标异常定位
多维度:5
多属性:3-100
异常根因:1-10
时效性:<1分钟
多样本:>3万
本质:离散变量的组合优化
赛题分析:方案设计原则
搜索目标函数:物理可解释
搜索算法:智能高效稳定
计算模式:流处理+并行化
根因集合:奥卡姆剃刀
赛题分析:方案框架
数据预处理
广度优先搜索
根因集合
异常根因
目标函数
(基于故障预测值)
启发式搜索
遗传算法搜索
+
方案介绍:数据预处理
(1)基于历史样本,计算
正常预测值
(2)剔除正常预测值与故
障实际值均为零的样本
 历史样本取平均
- 评估不同周期,
取得分最高的结果
- 多进程并行化计算
 减少75%-90%无效样本
 一次计算,多次引用,
避免重复计算
1 i01, e01, c1, p01, l3, 1.04
2 i01, e01, c1, p02, l3, 2.11
3 i01, e01, c1, p03, l3, 0.00
预处理
(3)建立单个根因与
对应样本编号的字
典索引
正常预测值 𝑓
故障实际值 𝑣
根因RSi
𝑎(𝑒𝑗) = 𝑓(𝑒𝑗) −
𝑓(𝑒𝑗)
𝑗 𝑓(𝑒𝑗) 𝑗
𝑓 𝑒𝑗 − 𝑣(𝑒𝑗)𝑒𝑗 ∈ 𝑅𝑆𝑖, 𝑓(𝑒𝑗) ≠ 0
𝑎(𝑒𝑗) = 𝑣(𝑒𝑗)𝑒𝑗 ∈ 𝑅𝑆𝑖, 𝑓 𝑒𝑗 = 0
𝑎(𝑒𝑗) = 𝑓(𝑒𝑗)𝑒𝑗 ∉ 𝑅𝑆𝑖
1 i01, e01, c1, p01, l3, 1.04
2 i01, e01, c1, p02, l3, 2.11
3 i01, e01, c1, p03, l3, 0.00
样本𝑒1属于根因i01 ,
但不属于根因i02
故障预测值𝑎
例如,RSi = i01&e01
不
同
样
本
类
型
计
算
方
式
不
同
不同𝑅𝑆𝑖, 故障预测值分开计算
方案介绍:故障预测值计算
加入真实根因,目标函数增大
加入非真实根因,目标函数变小
真实根因:故障大小+ripple effect
方案介绍:目标函数设计
 根因集合𝑅𝑆 𝑚 = 𝑅𝑆1; … ; 𝑅𝑆 𝑚
 正常预测值 𝑓
 故障实际值 𝑣
 故障预测值 𝑎
目标函数s𝑐𝑜𝑟𝑒 𝑅𝑆(𝑚) =
𝑠𝑐𝑜𝑟𝑒1 ∗𝑠𝑐𝑜𝑟𝑒2
𝑚 𝑐 , 0 < 𝑐 < 1
𝑠𝑐𝑜𝑟𝑒1 =
𝑒 𝑗∈𝑅𝑆 𝑚 𝑣 𝑒𝑗 − 𝑓(𝑒𝑗)
𝑣 − 𝑓 1
𝑠𝑐𝑜𝑟𝑒2 = 1 −
𝑣 − 𝑎 1
𝑣 − 𝑓 1
根因集合𝑅𝑆(𝑚)能解释的故障比例
根因集合𝑅𝑆(𝑚)能解释的故障比例
+
根因集合𝑅𝑆(𝑚)符合𝑅𝑖𝑝𝑝𝑙𝑒 𝐸𝑓𝑓𝑒𝑐𝑡 程度
方案介绍:目标函数设计
假设根因集合𝑅𝑆(𝑚) = 𝑅𝑆1, … , 𝑅𝑆 𝑚 完全符合𝑅𝑖𝑝𝑝𝑙𝑒 𝐸𝑓𝑓𝑒𝑐𝑡
𝑠𝑐𝑜𝑟𝑒 𝑅𝑆(𝑚) > 𝑠𝑐𝑜𝑟𝑒 𝑅𝑆(𝑚 − 1) 成立的条件:
𝑒 𝑗∈𝑅𝑆𝑖
𝑣 𝑒𝑗 − 𝑓(𝑒𝑗) >
𝑒 𝑗∈𝑅𝑆 𝑚−1
𝑣 𝑒𝑗 − 𝑓(𝑒𝑗) ∗
𝑚
𝑚 − 1
𝑐
2
− 1
𝑅𝑆(𝑚) = 𝑅𝑆1; … ; 𝑅𝑆𝑖; … 𝑅𝑆 𝑚 𝑅𝑆(𝑚 − 1) = 𝑅𝑆1; … ; , 𝑅𝑆𝑖+1; … ; 𝑅𝑆 𝑚?
物理含义:只有当𝑅𝑆𝑖对应的故障足够大时,才将其加入根因集合𝑅𝑆
𝑅𝑆𝑖对应的故障 𝑅𝑆(𝑚 − 1)对应的故障
方案介绍:目标函数分析
将𝑅𝑆𝑖加入根因集合的条件:
𝑒 𝑗∈𝑅𝑆 𝑖
𝑣 𝑒𝑗 − 𝑓(𝑒𝑗) >
𝑒 𝑗∈𝑅𝑆 𝑚−1
𝑣 𝑒𝑗 − 𝑓(𝑒𝑗) ∗
𝑚
𝑚 − 1
𝑐
2
− 1
𝑐
𝑚 𝑚
𝑚 − 1
𝑐/2
− 1
0.3
2 0.1095
3 0.0627
4 0.0441
0.6
2 0.2311
3 0.1293
4 0.0901
0.9
2 0.3660
3 0.2001
4 0.1381
方案介绍:目标函数分析
广度优先
启发式
遗传算法
 目标函数值相等时,选择首次搜索到
的结果(深度最浅的结果)
 交叉维度内单一根因目标函数排序,选
择TOPN集合
 TOPN根因集合编码为长度为N的二进
制;在每一代迭代中,选择一个DNA个
体进行枚举搜索。
排
序
方案介绍:智能搜索
队伍名字 测试阶段 测试得分 运行时间 排名
火眼金睛
决赛 0.9516 <1min 2
预赛 0.9147 <30 s 4
关键参数分析:
 故障预测值:不同周期的平均值,并行化加速
 score 中𝑚 𝑐的c:算法中c 取固定值。减小c,算法倾向于得到根
因数目更多的集合。(预赛2阶段中c 固定时,得分0.9713,根
据样本特征,人工设计规则调整c 值,可以得到1分)
 score 中范数类型:算法中取𝑙1范数,实测𝑙1比𝑙2得分更高
总结讨论
多维监测指标异常定位
THANKS
Q&A
AIOps Challenge

Weitere ähnliche Inhalte

Ähnlich wie 第二名 2nd 火眼金睛

蔡学镛 - 深入浅出符合事件处理
蔡学镛 - 深入浅出符合事件处理蔡学镛 - 深入浅出符合事件处理
蔡学镛 - 深入浅出符合事件处理
d0nn9n
 
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
Hans Shih
 
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
台灣資料科學年會
 

Ähnlich wie 第二名 2nd 火眼金睛 (13)

蔡学镛 - 深入浅出符合事件处理
蔡学镛 - 深入浅出符合事件处理蔡学镛 - 深入浅出符合事件处理
蔡学镛 - 深入浅出符合事件处理
 
基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲
 
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
界面設計黑魔法 - The Dark Art of Interface Design @ RGBA 07
 
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
 
扶搖職上
扶搖職上扶搖職上
扶搖職上
 
扶搖職上:協助職涯發展之AI智慧聊天機器人(LineBot)
扶搖職上:協助職涯發展之AI智慧聊天機器人(LineBot)扶搖職上:協助職涯發展之AI智慧聊天機器人(LineBot)
扶搖職上:協助職涯發展之AI智慧聊天機器人(LineBot)
 
第五組-AI視力檢測機AI Vision-Exam Presenation v.1.6.6
第五組-AI視力檢測機AI Vision-Exam Presenation v.1.6.6第五組-AI視力檢測機AI Vision-Exam Presenation v.1.6.6
第五組-AI視力檢測機AI Vision-Exam Presenation v.1.6.6
 
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011
 
数据采集中间件技术交流
数据采集中间件技术交流数据采集中间件技术交流
数据采集中间件技术交流
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
为什么选择问卷
为什么选择问卷为什么选择问卷
为什么选择问卷
 
[台灣人工智慧學校] 台北總校第三期開學典禮 - 執行長報告
[台灣人工智慧學校] 台北總校第三期開學典禮 - 執行長報告[台灣人工智慧學校] 台北總校第三期開學典禮 - 執行長報告
[台灣人工智慧學校] 台北總校第三期開學典禮 - 執行長報告
 

Mehr von Leo Zhou

1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑
Leo Zhou
 
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用
Leo Zhou
 
Protocol libraries the right way
Protocol libraries the right wayProtocol libraries the right way
Protocol libraries the right way
Leo Zhou
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
Leo Zhou
 
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James BennettThe net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James Bennett
Leo Zhou
 

Mehr von Leo Zhou (20)

第三名 3rd zhyict
第三名 3rd zhyict第三名 3rd zhyict
第三名 3rd zhyict
 
AI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving NetworkAI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving Network
 
2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用
 
1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb
 
1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑
 
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用
 
Protocol libraries the right way
Protocol libraries the right wayProtocol libraries the right way
Protocol libraries the right way
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
 
我的互联网运维理论与实践
我的互联网运维理论与实践我的互联网运维理论与实践
我的互联网运维理论与实践
 
如何选择 Docker 监控方案
如何选择 Docker 监控方案如何选择 Docker 监控方案
如何选择 Docker 监控方案
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍
 
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James BennettThe net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James Bennett
 
Hypothesis randomised testing for django
Hypothesis randomised testing for djangoHypothesis randomised testing for django
Hypothesis randomised testing for django
 
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
 
动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法动静态混合网站或 APP的CDN优化方法
动静态混合网站或 APP的CDN优化方法
 
MySQL运维那些事
MySQL运维那些事 MySQL运维那些事
MySQL运维那些事
 
天灾还是人祸? Oracle连环夺命未遂记
天灾还是人祸? Oracle连环夺命未遂记天灾还是人祸? Oracle连环夺命未遂记
天灾还是人祸? Oracle连环夺命未遂记
 
关于服务器评测与选型
关于服务器评测与选型关于服务器评测与选型
关于服务器评测与选型
 
Python&GUI
Python&GUIPython&GUI
Python&GUI
 

第二名 2nd 火眼金睛

Hinweis der Redaktion

  1. 𝑠𝑐𝑜𝑟𝑒 𝑚−1 𝑠𝑐𝑜𝑟𝑒 𝑚 = 𝑝𝑜𝑤𝑒𝑟( 𝑚 𝑚−1 ,0.618) 𝑓(𝑅𝑆(𝑚))−𝑣(𝑅𝑆(𝑚)) 1 2 / 𝑓(𝑅𝑆(𝑚−1))−𝑣(𝑅𝑆(𝑚−1)) 1 2
  2. 𝑠𝑐𝑜𝑟𝑒 𝑚−1 𝑠𝑐𝑜𝑟𝑒 𝑚 = 𝑝𝑜𝑤𝑒𝑟( 𝑚 𝑚−1 ,0.618) 𝑓(𝑅𝑆(𝑚))−𝑣(𝑅𝑆(𝑚)) 1 2 / 𝑓(𝑅𝑆(𝑚−1))−𝑣(𝑅𝑆(𝑚−1)) 1 2