Más contenido relacionado

腾讯大讲堂30 运维工具让你的开发运营更轻松

  1. 运维工具让你的开发运营更轻松 架构平台部 - 运营平台中心 Aresliang
  2. 我们为什么要建ITIL 30 多个亿 100 亿 我们的规模会有多大? 我们需要多强大的支持能力?
  3. HP - ITSM 方法论
  4. 如何实施 ITIL 客 户 服务台 突发事件管理 问题管理 变更管理 发布管理 专家建议:应用 ITIL ,一般从服务支持环节着手。服务支持环节包括包含 5 个流程:事件管理、问题管理、变更管理、配置管理和软件发布管理,它们之间互为补充。 ITIL 的实施过程中,配置管理是核心。 配置管理 CMDB
  5. 传统的 IT 管理和 ITSM 比较
  6.  
  7. 服务目录介绍 质量 基础 数据 运营平 台中心 成本 4个产品线 31个子产品 效率
  8. 产品线体系
  9. 定位
  10. 系统结构 配置核心支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高级配置管理模块 接口
  11. 系统结构 配置核心支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高层配置管理模块 接口 配置核心支撑平台 (包括配置系统核心的数据库 (CMDB) 和管理模型、接口、管理工具 ( 定义及配置管理、用户管理、角色权限管理、日志管理、通用增删改、通用查询检索)
  12. 系统结构 配置核心支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高层配置管理模块 接口 基于场景的配置管理模块 (为了提高批量操作,简化配置管理的复杂性,而引入的基于场景的配置管理模块)
  13. 系统结构 配置核心支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高层配置管理模块 接口 高层配置管理模块 (以配置数据的管理为核心的高层增值管理模块,如综合管理试图)
  14. 系统结构 配置核心支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高层配置管理模块 接口 Auto Discovery System (用于数据的自动发现、自动采集、自校验和诊断的系统)
  15. 系统结构 配置管理支撑平台 管理平台 接口 基于场景的配置管理模块 网管 OMSCA 变更系统 RTools … CMDB Auto Discovery System 高层配置管理模块 接口 周边配套系统 (主要不是用于配置管理的系统,但需要存取 CMDB 中的数据的系统)
  16. 系统界面 http://Server.itil.com
  17. 逻辑结构
  18. 监控层次 产品 业务 模块组 模块 业务功能 用例 用例操作 组件 (具体到IP) 基础资源 外部监控 业务内监控 基础监控
  19. 产品体系架构(三横两纵) 用户体验监控系统 用户体验定位系统 业务特性监控系统 外部 监控 业务逻辑监控系统 模块间调用监控系统 业务模块监控系统 业务内部 监控 基础环境监控 基础设备监控系统 基础网络监控系统 统一告警平台 告警关联模型库 统一告警渠道 智能分析平台
  20. 基础网管架构层次 Agent 数据接入层 数据 Cache 层 数据逻辑运算层 DB, 文件存储层 数据访问接口层 Web 展示层 采集的网络 , 主机数据 , 业务插件接入数据 最近访问数据内存缓冲 告警分析 , 数据分析 , 叠加运算等 主机性能数据 , 告警等历史数据 各种数据访问方法 , 访问协议适配方法 基于 iis 的 aps.net 和 apache cgi web 应用展示 网管公共组件库 (.so)
  21. 数据流
  22. 核心价值 - 故障主动发现和定位能力
  23. 核心价值 - 故障主动发现和定位能力
  24. 核心价值 - 采集的数据挖掘展现
  25. 核心价值 - 挖掘展现:服务器负载分析
  26. 产品架构
  27. 日志集中平台 ---local LogApi
  28. 单据类型 标 红色 是为目前未实现 被动 主动 事件 维护单 客服 自动监控 / 运维发现 突发事件 监控单 投诉单 服务请求 (管工事件) 有影响 无影响 管工 BU 处理 部门?
  29. 产品关联图 变更实施解决故障 事件管理 问题管理 变更管理 配置管理 服务台 变更请求 提供配置信息 配置变化通知 提供配置信息 提供配置信息 趋势分析 避免故障重复出现 监控告警 客服工单 投诉单
  30. 事件系统的价值和定位 SLA 确定及签署 事件的记录及处理 SLA 的阶段核算及监控 绩效及评价考核 SLA 优化及改进措施 年度系统建设及优化规划 系统建设及优化实施 SLA 偏离整改及行动方案 系统改进及优化 系统建设项目评估评价 图:可用性管理与项目建设的推进协作
  31. 解决方案及成果 解决方案 项目收益 事件记录 公司统一事件录入平台,记录跟踪事件处理直至最终解决 1. 将原来分散在工单系统、事件系统和 BU 内部的运维数据录入统一的事件管理平台中 2. 公司只建设一套系统,各部门不用投入重复开发 3. 将 ISD/IED 对事件管理的管理和规范推广到其他部门 管理支持 建立服务目录和级别管理模块 1. 在统一平台上展现管工 SLA 以及 BU 可用性统计等重要运营数据和报表,可以纵向对比运营质量 2. 支持管工、客服、 BU 针对数据分析,进行管理决策 3. 支持对运维人员的服务质量和运维质量考评 ITIL 其他系统建设 统一后续问题管理,知识库管理的建设,减少重复投入 1. 通过各相关系统提供的接口,预留变更管理、问题管理接口,并在统一平台上展现管工 SLA 以及 BU 可用性统计等重要运营数据和报表 2. 已支持与 ISD 问题管理系统接口,实现初步的问题管理升级模式
  32. 系统界面 http://helper.itil.com
  33. ARS 发布推广情况 红色代表基本覆盖所有产品 蓝色代表部分产品覆盖 白色代表正在试用中 部门 对象业务 接口人 现状 ISD Qzone waynewang 1 、已经覆盖 ISD80 %的发布工作; 2 、剩余 20 %的 ISD 发布计划在 Q2 实现覆盖(主要是包的增量发布); QQ 秀 QQ 会员 QQ 相册 QQ 交友 QQ 音乐 Imagecache IED 寻仙 leoxiong 、 felixwang 1 、飞行岛发布稳定。 2 、 PET 1.0 正常进行了多次正式环境发布。 3 、 CF 进行了多次正式发布。 4 、其它多个产品处于试用中。 QQ 宠物 1.0 飞行岛 QQ 宠物 2.0 CF QQ 幻想 无线 手机 QQ amyli,yen,steveqiao,wingzhou 1 、手机 QQ 发布稳定。 2 、 VOIP 进行了多次正式发布。 3 、其它多个产品处于试用中。 无线音乐 无线平台服务 VOIP 创新中心 QQ 客服 jackye 1 、频道应用发布稳定。 网站部 频道应用 国际产品中心 美国 QQGame 广告部 QQlive 运营支持部 pay.qq.com hairyxie 发布数量稳定。 电子商务部   eagle 已完成部署,试用中 在线支付部 财富通 aaronzheng 完成了新环境的部署,试用中。
  34. ARS 发布数据 注明: 1 、图表中所示为发布次数,不是发布版本数,因为一个版本可能会发布多次; 2 、互动娱乐和无线产品部的发布次数中包含试用次数。
  35. ARS 版本计划 V3.2 Mar 2008 V3.2 Beta02 Apr 6,2008 V3.0 Dec 2007 V3.1 Jan 2008 ARS V3.2 主要进行 windows 移植开发、 Linux 整改、包发布、 task 完善。 V3.2 Beta03 Apr 22,2008 V3.3 Jul 2008 V3.2 Beta04 May 15,2008 V3.2 Beta05 May 23,2008 V3.2 Beta06 Jun 6,2008 V3.2 Beta07 Jun 17,2008 V3.2 Beta08 Jun 27,2008
  36. 公共运维平台的规划 安全管理 公共运维平台 发布管理 任务管理 TSH 监控管理 用户管理 权限管理 操作日志管理 发布自动化 发布平台化 发布审批 发布计划管理 版本管理 公共软件的发布管理 命令 / 脚本集中管理(编辑 / 查看 / 保存) 任务的权限管理 任务手工 / 定时自动调用 任务执行结果查看 进程状态监控; 版本状态查询; 自动 / 手工重启进程; 用户分权分组管理 操作进行分类管理 记录 / 查看用户在公共运维平台的所有操作
  37. 公共运维平台的拓扑图 Rnet Dnet IDC ARS 服务器 编译机池 生产机 生产机 办公网 测试机池 预发布机池 ARS 备份服务器 …… … … …
  38. 公共运维平台定位 IDC RNet 办公网 控制以及 审计对生 产环境的 访问 … … ……
  39.  

Hinweis der Redaktion

  1. 事件管理是一个很关键的流程,它为组织提供首先检测事件然后准确确定正确的支持资源以便尽快解决事件的能力。该流程还为管理层提供关于影响组织的事件的准确信息,以便他们能够确定必需的支持资源,并为支持资源的供给做好计划。 通过利用事件管理流程,组织能够确保他们的支持资源集中在最紧迫并且可能对业务产生最大影响的问题上。如果没有该流程提供的控制和管理信息,组织将无法确保他们在 IT 支持方面的投资(经常是很重大的投资)是否真正满足其目标。