云运维的理念和思维

云运维的整体理念与实践
中国移动（苏州）研发中心

• 姚昕
• 18896724880
• 恩墨学院Oracle高级讲师
• Cloudera认证讲师
• Oracle 10g、11g、12c OCM认证
• 曾在IBM任职亚太客户支持
• 中国移动（苏州）研发中心运营支撑部
• http://blog.csdn.net/kiwi_kid
• yaoxin@cmss.chinamobile.com

1、运维新趋势
2、敏捷运维的概念
3、敏捷运维的核心实践
4、新运维理念下对团队跟个人的要求

更少的设备
维护需求
更快的部署
速度
更大的承载
能力
更好的故障
处理能力
挑战
运维工作面临的挑战

DevOps的核心，就是Dev用D的能力延伸到
Ops，而Ops则把O的能力传递到Dev，两者
相结合结合突出重视软件开发人员和运维人
员的沟通合作，通过自动化流程来使得软件
部署、运维更加高效和便捷。

减少人
力的投
入
节省运
维费用
支出
实现快
速自动
部署
减少故
障中断
时间
自动化以后就不再需要人力
提升数据中心的运营能力
运维人员不再需要关心基础架构，
通过自动化软件即可实现业务部署，
底层资源调配，网络配置等
7*24小时无中断，故障后快速故障
恢复及容灾自动切换
DevOps 的优势

DevOps 的各种工具
⦁代码管理（SCM）：GitHub、GitLab、BitBucket、SubVersion
⦁构建工具：Ant、Gradle、maven
⦁自动部署：Capistrano、CodeDeploy
⦁持续集成（CI）：Bamboo、Hudson、Jenkins
⦁配置管理：Ansible、Chef、Puppet、SaltStack、ScriptRock GuardRail
⦁容器：Docker、LXC、第三方厂商如AWS
⦁编排：Kubernetes、Core、Apache Mesos、DC/OS
⦁服务注册与发现：Zookeeper、etcd、Consul
⦁日志管理：ELK、Logentries
⦁系统监控：Datadog、Graphite、Icinga、Nagios
⦁性能监控：AppDynamics、New Relic、Splunk
⦁压力测试：JMeter、Blaze Meter、loader.io
⦁HTTP加速器：Varnish 消息总线：ActiveMQ、SQS
⦁应用服务器：Tomcat、JBoss、IIS
⦁Web服务器：Apache、Nginx
⦁数据库：MySQL、PostgreSQL等关系型数据库；cassandra、
mongoDB、等NoSQL数据库
⦁项目管理（PM）：Jira、Asana、Taiga、Basecamp、Pivotal Tracker

DevOps 能力融合的4大核心实践
Ops
Dev
实践2：将开发嵌入到IT运维中（端到端管理）
实践3：向开发中加
入生产反馈（可视化
监控）
实践1：将开发延伸至生产中（持续集成和
交付）
实践4：将It运维嵌入至
开发（运维分析）

实践1：持续集成过程
持续编译
持续代码
检查
持续测试
持续部署
持续报告
持
续
集
成
体
系
建
设
1 制定基本构建流程
2 加强代码自动验证环节
3 加强单元测试环节
4 加强自动化测试环节
5 加强自动部署环节

实践1：如何实现持续集成？
持续集成的重要要素：
1.统一的代码库。
2.CI服务器
3.自动化测试和构建的脚本
4.Slaves
解决方案：
Jenkins+Git

实践1：基于容器技术的快速部署
容器并不包含一个单独的操作系统，而是基于已有的基础设施中操作
系统提供的功能来运行的。
将应用程序及所有程序的依赖环境打包到一个容器中，容器可以运行
在任何一种 Linux 服务器上。这大大地提高了程序运行的灵活性和可
移植性。
虚拟机是操作系统级别的资源隔离，容器本质上是进程级的资源隔离
Virtual Machine Docker

实践1：Docker的持续部署

服务器
操作系统
应用
IT基础架构发展阶段1：裸机时代
• 基础架构利用率低
• 每台服务器上运行一个应用程序：
• 典型的x86 服务器部署平均达到的
利用率仅为总容量的10% 到15%
• 物理基础架构成本日益升高
• 大多数计算基础架构都必须时刻保
持运行，因此耗电量、制冷和设施
成本不随利用率水平而变化。
• 管理成本不断攀升
• 服务器数量太多难以管理，新服务
器和应用的部署时间长，硬件维护
需要数天/周的变更管理准备和数
小时的维护窗口。
• 故障切换和灾备困难：
• 兼容性差。系统和应用迁移到新的
硬件需要和旧系统兼容的硬件系统。

服务器
操作系
统
应用
操作系统
虚拟机
操作系
统
应用
虚拟机
操作系
统
应用
虚拟机
云平台
服务器
操作系统
IT基础架构发展阶段2：虚拟化时代
以虚拟化技术为基础，以虚拟机为单位，
将资源提供给用户。
• 提高资源利用率
• 将一台高性能的服务器虚拟
成多个虚拟机，在物理上虚
拟机共享宿主服务器的硬件
资源，而逻辑上各自独立，
可在各虚拟出的服务器上运
行不同的应用，各司其职，
互不干扰。
• 降低管理、运维成本
• 简化服务器的部署、管理和
维护工作，降低管理费用
• 核心技术
• 计算虚拟化、 SDN 、
OpenStack管理

服务器
应用
操作系统
应用应用
服务器
操作系统
资源统一管理、调度
IT基础架构发展阶段3：以应用为中心时代
• 问题
• 虚拟机构成的集群仍然难
以运维，对于每个虚拟机
的维护也并非容易，用户
遇到的问题和直接维护物
理机集群基本相似
• 用户需求
• 应用能够获取资源，快速
启动，服务可以无限扩展
（不在乎怎样运行及运行
在哪），服务失败时能被
自动检测并修复，应用易
于迁移。
Datacenter Operating System（DCOS）
目标：整合数据中心资源虚拟池化，开放诸如CPU、内存和I/O
这些基本资源而不是虚拟机。就像操作系统将PC的处理器和
RAM放入资源池，使其可以为不同的进程协调分配和释放资源
核心技术：容器集群资源管理、容器

Mesos的结构（1）
Master、Slave、
Zookeeper、Framework
Master通过zookeeper实现
选举机制。
Master负责给各个不同的框
架分配资源并管理任务的生
命周期
Slave节点负责利用已有资源
执行框架下发任务
Mesos是Apache下的开源分布式资源管理框架，它被称为是分布
式系统的内核，能够简化在一堆共享服务器池中运行任务

Mesos的结构（2）
① Mesos master从slave节点获
取资源offer，调用分配模块决
定将资源分给哪个框架。
② 框架调度器从Master接受资源
offer。
③ 当接受到资源offer后，框架调
度器会检查offer是否合适。如
果合适，接受该offer并向
master返回在slave上运行的
的执行器列表。
④ Slave节点分配所请求资源并运
行任务执行器，任务执行器在
slave节点上运行框架下的任务。

Marathon
Mesos集群可以混合运行来自
Marathon的不同类型的任务
Marathon基于Mesos的任务调度为动
态调度，即每个任务在执行之前是不
知道将在哪一台服务器上执行和绑定
哪一个端口
Mesos集群上混合运行各种Marathon
调度的任务，其中一台服务器坏掉以
后，Marathon可把任务迁移到其他服
务器上，实现容错
Marathon是基于Mesos来做任务调度，Mesos仅负责分布式集群资
源分配，不负责任务调度。

实践1：持续部署-苏研DCOS系统

 OpenStack安装非常困难, 困难主要来自于:
开源项目，系统本身开发时间短，不够稳定, bug多。
配置自由，灵活度高，很难将所有的配置项都试全。
 Fuel是Mirantis公司开发的一个开源的OpenStack
套件，具有以下优点:
安装简便: 全部通过图形界面操作。
配置灵活: 支持Redhat和CentOS, 支持Ceph开源存储软
件。
稳定可靠: 已经在多家公司商用。
 Mirantis fuel从http://software.mirantis.com
下载, 可以下载iso文件
云计算自动化部署工具-Fuel

Fuel 并不是一个大的整体，它由几个独立的组件组成。
 UI 一个用JaveScript写的
页面应用，主要还是用
bootstrap框架
 Nailgun 提供REST API 以
及部署数据管理。
 Astute Nailgun任务的执
行者。
 Cobbler 提供快速网络安
装系统
 Mcollective 一个构建服务
器编排和并行工作执行系
统的框架
 OSTF Openstack testing
framework,提供健康检查

实践1：持续部署- H-Control系统

实践2：实现用户操作的可视化

运用自动化运维作业工具，将日常重复性的运维作业内容固化，
实现自动化备份、自动化分析报表等功能，提高运维效率，使运
维人员有时间开展系统优化提升工作。
1.如何落实运维流程？
2.如何提高运维技能？
备份分析
恢复
自动化运维
作业功能模块

工具一：Ansible
基于Python研发。实现了批量操作系统配置、批量程序的部署、
批量运行命令等功能。仅需在管理工作站上安装 ansible 程序配置
被管控主机的 IP 信息，被管控的主机无客户端。
(1)、连接插件connection plugins：
负责和被监控端实现通信；
(2)、host inventory：指定操作的主
机，是一个配置文件里面定义监控的主
机；
(3)、各种模块核心模块、command模
块、自定义模块；
实践2：实现运维的自动化与可视化

工具二：Saltstack
Salt，一种全新的基础设施管理方式，部署轻松，在几分钟内可运
行起来，扩展性好，很容易管理上万台服务器，速度够快，服务器
之间秒级通讯。Salt底层采用动态的连接总线, 使其可以用于编配,
远程执行, 配置管理等等。Salt的拓扑使用简单的server/client模式
实践2：实现运维的自动化与可视化

实践2：苏研-HControl产品

实践3：构建立体化的监控体系
停机费用成本 = 部署频率 * 版本迭代失败概率 * 平均修复
时间 * 断电的金钱损失

实践3：云计算监控Cloud Master

实践3：云计算监控Cloud Master
通过Ganglia采集物理机的性能指标
通过Ceilometer采集虚拟机的性能指标

实践3：大数据监控H-Control

云时代日志的特点
系统规模大
业务模块多
日志量大
 日志数据之间相
互关联
 SLA要求比较高
如何在灾难性事件发生时，
能够做好相应的准备
如何在第一时间捕获到错
误动态
如何针对不同的业务逻辑
建立保障措施
如何利用关联性挖掘有价
值的信息
IT系统信息
• 服务器
• 网络设备
• 存储设备
• 操作系统
• 应用软件
用户行为
• 用户行为
业务信息

 从 IT Operation Management (ITOM) 到 IT
Operation
Analytics (ITOA)
 大数据技术应用于IT运维，通过数据分析提升
IT运维效率
• 可用性监控
• 应用性能监控
• 故障根源分析
• 安全审计
 Gartner估计，到2017年15%的大企业会积极使
用ITOA；
而在2014年这一数字只有5%
实践4：IT运维分析

日志管理系统的进化
日志1.0
数据库
日志2.0
Hadoop
日志3.0
实时搜索引擎
 日志没有集中处理
使用脚本或者命令查看
 日志只做事后追查
没有实时监控、分析
 使用数据库存储日志
无法适应TB级海量日志
数据库的schema无法适
应各种各样的日志格式
无法提供全文检索
 Hadoop
批处理，不够及时
查询慢
数据离线挖掘，无
法做在线分析
 Storm/Spark
 对日志实时检索、分析
日志实时搜索分析引擎
 快
日志从产生到搜索分析出结
果只有几秒延时
 大
每天处理TB级别的日志量
 灵活
可搜索、分析任何日志

云环境日志管理的实践—目标功能
实时数据采集
存储+索引
查询/关联搜索
实时告警
图表展示
实时动态的采集日志数据，可以动态的监控到整个环境
的运行状态，一旦有紧急情况发生，可以第一时间掌握
信息。
集中管理来自多个集群的海量日志，对抓取的日志存储
并建立索引，可以快速的在海量信息中找到感兴趣的部
分。
运用简单的搜索语法在集中管理的海量日志中查找所需
信息，根据关键词一键查找多个集群中关联的信息。
根据实时采集的日志数据，分析日志信息的特征制定告
警，对系统出现的错误做到第一时间的掌控，同时根据
特定业务特征，实现危险状态的预警。
能对各字段进行统计，值分布，总数，平均数等，提供
多样化的图表支持，柱状图，饼图，折线图等。
对非结构化日志的采集、分析为运维人员提供精准分析、多维度图
表展示、实时报警、数据管理、离线处理和数据过滤等功能。

云环境日志管理的实践—数据流程图
数据库文本文件数据流
采集客户端采集客户端采集客户端
中间数据存储
实时分析离线分析数据挖掘监控报警
分布式索引
结果可视化
实践4：日志管理软件Log-Manager

BC-EC是非常典型的运行在分布式集群上的业务，每台服务器都会产生一定量的日
志，三台控制节点每秒大约会产出3万条日志，包含来自各个组件的运行信息。
苏研自有IDC已投入使用，稳定运行近一年时间。研发测试区100台物理机
运行着BC-EC，支撑着研发部近2000台研发用虚拟机的运作，三台控制节
点上每天会产出500G左右的日志数据。
Nova
Neutron
Keystone
Glance
Cinder
Ceilometer
计算服务
SDN组件
身份认证服务
镜像服务
块存储服务
计量监控服务

在没有使用日志管理软件之前，对于BC-EC集群的运维，除了使用开源的监控软件之外，
还会每天定时对每台机器上的日志进行巡检，抽取出运行状态信息以及error日志进行
备份。
利用Ganglia, Zabbix等开源监控软件对集群进行监控，并在问题出现时发邮
件和短信提醒
定期对日志进行巡检，定期导出每台机器上的日志，筛选日志进行备份
监控软件提供的告警信息能起到
提醒和简单分析的作用，例如集
群是否在正常运行，哪个模块出
错导致了异常等
如果需要追踪更详细的信息，比如
因为什么原因模块会出错，出错时
会不会影响其他模块的运行，这个
时候详细的日志信息就起到了作用
定期巡检日志起到了备份的作用，
偶尔在时候检查问题是会翻找日
志信息进行排错。但是日志的价
值远远不止这些
日志信息会实时记录系统的运行状
态及一切操作细节，如果已知业务
场景及相应日志中的规律，可以形
成有效的预警机制

针对传统运维方式带来的弊端，简化运维操作，提升排错效率，我们在
告警监控模块做了进一步的加强。页面左侧实时刷新告警信息，右侧则
显示告警的详情，包括触发时间，触发原因等信息，还会列出触发告警
的日志信息，方便排查错误。

在运维BC-EC的过程中，我们也逐渐发现OpenStack类型日志的一些特点，
从而在操作上做出了一些优化，集成在了OpenStack插件上。OpenStack
的日志会有一些独有的特点，比如，一个操作会经过多个组件，如果出
现问题，可以通过同一个req-id追溯到第一个经过的组件进行排查。同
时对一些经常出现的错误我日志进行了标记，在日志出现时会提示相应
的诊断信息。
查询前后一小时范围内相同req-id的日志

运维团队的能力要求：

运维的个人能力要求：

云运维的理念和思维

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (17)

Ähnlich wie 云运维的理念和思维

Ähnlich wie 云运维的理念和思维 (20)

云运维的理念和思维

Hinweis der Redaktion