SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
网易云大规模全闪存Ceph存储集群
的运维“智”路
赵文科
技术总监
120 OSD
1000 OSD
5000 OSD
17000 OSD
35000 OSD
Ceph在网易云的发展历史
2014年
2015年
2016年
2017年
2018年
Cyclone
(CBS)
(COS)
Ceph在网易云的应用场景
Ceph在网易云的业务发展
支持网易100+业务,总存储容量超过30PB (块存储)
块存储
对象存储
Ceph优化1 – Ceph Peering
Ø 背景
当生产环境下集群规模大到一定规模(比如>100节点),Mon和OSD的压力都会指数级的增长;坏盘、
坏存储节点或者扩容都会导致长时间的PG Peering流程,此过程中,所有的用户IO都被阻塞,不能被
响应;从用户来看,云盘就会长时间卡顿(我们观察到的的卡顿长达2分钟多),极大地影响用户体验
和业务的服务。
Ø 目标
解决坏盘、宕机、扩容时用户IO卡顿的问题
Ø 设计思路
ü PG Peering时会阻塞用户IO,一个OSD包含100个左右PG。OSD上线或离线时100个PG会同时进
行Peering,但实际上只有1/3的PG需要立即进行Peering,剩余2/3的PG可以延迟进行。通过减
少同时进行Peering的PG数量来缓解IO卡顿问题
ü 主动检测坏盘或者有问题的磁盘控制器的发生,缩短器件损坏的周期,主动上报Mon
Ceph优化1 – Ceph Peering cont.
Started
RepNot
Recovery
Primary
advmap
Active
Clean
Peering
ReplicaActive
Stray
Reset
Start
actmap
primary replica Started
RepNot
Recovery
Primary
advmap
Active
Clean
Peering
ReplicaActive
Stray
Reset
Start
actmap
DeferPeering
RepDefer
Peering
advmap advmap
replicaprimary
onpeering
Defer_peering_entry
原PG中osdmap更新流程 新PG中osdmap更新流程
Ø 推迟非主节点的PG同步 Ø Peering阶段控制流量
Ø 发现坏盘,主动上报Mon Ø 坏盘或扩容,静默处理
Ceph优化1 – Ceph Peering Cont.
Ø 硬件的问题
ü RAID卡或者HBA卡的4S固定时间的Discovery流程
ü 放大Ceph IO的影响效果(10S)
Ø 优化的结果
ü 通过Ceph Peering的优化,坏盘、坏节点、扩容等行
为对用户IO的影响降低到1S以内
ü 整个集群的稳定性大大提升,和运维时间缩短非常
明显
Ceph优化2 – Partial Recovery
can_recover_partial
Activating
DoRecovery
WaitLocalRecoveryReserved AsyncReserver
WaitRemoteRecoveryReserv
ed
Recovering
Recovered
LocalReoveryReserved
AllRemoteReserved
AllReplicaRecovered
RepNotRecovering
RepWaitRecoveryR
eserved
AsyncReserver
RepRecovering
RequestRecovery
MRecoveryReserve
AllReplicasRecovered
Primary Replica
DoPartialRecovery
Yes
NO
Ø 基本思路
ü 利用PGLog中dirty extent数据的offset/len信
息,在恢复过程中进行增量数据恢复
ü 增加恢复的流控控制参数
(OSD_RESTORE_THROUGHPUT),控制恢
复的进度和影响,将对磁盘和网络的带宽压
力降低到最小程度
Ceph优化2 – Partial Recovery Cont.
Ø 优化的结果
ü 通过增量恢复和恢复带宽流控的优化,大量数据的恢复对用户IO影响的改善比较显著
Ceph优化3 – Scrub的流控
Ø Scrub的现状
ü Scrub分为fast scrub 和 deep scrub
ü Fast scrub只对元数据部分进行checksum计算
并校验
ü Deep scrub对整个数据块进行checksum计算
并校验
ü Scrub的配置是两种scrub都enable,且一天多
次进行scrub
ü 读数据操作占用过多的磁盘带宽,导致多个
磁盘的diskUtil过高,不同程度的影响用户IO
和用户使用体验
Ceph优化3 – Scrub的流控 cont.
Ø 优化的结果
ü 经过此次优化的效果,在Scrub操作过程中,通过对读磁盘带宽的细粒度流控管理,达到了
进行Scrub的时候读磁盘行为对用户IO无明显影响的目标
Ceph优化4 – LibRBD客户端线程数膨胀的问题
Ø 问题的背景
ü 在大规模Ceph块存储的集群中,当一个Ceph数据池的OSD数量超过一定数值(比如600 ~
840个),客户端librbd为请求分配的线程数会发生膨胀。
ü 比如三个机柜满配840个OSD,那么每个客户端需要维护(12个卷 * 840 * 2)个线程总数,那
么需要宿主机为此预留50GB内存,严重地影响虚机交付数量和宿主机的稳定性;同时,
线程的增加也会导致线程上下文切换的开销
Ø 优化的工作
ü 基于高性能NRPC库的功能,对SimpleMessager的模型重构成
基于事件驱动的异步消息实现
ü 由虚拟机产生的IO或者请求由librbd层固定数量的线程来服
务,异步化实现下发IO或者请求到后端Ceph集群的模型
NRPC
epoll IO
RPC
Ceph优化5 – OSD假死的问题
Ø 问题的背景
ü 在大规模Ceph块存储的集群中,Mon节点的压力非常大,网络抖动或者存储节点
的问题,会导致OSD与Mon之间、OSD之间的心跳会超时,某些情况下,个别
OSD会被Mon节点错误的标识为Down,从而影响系统的稳定性
Ø 优化的工作
ü 在秒级监控的系统帮助下,通过逐步的调整集群内Mon节点的心跳间隔来调控心
跳本身的压力,尽量减少OSD被误报假死的情况
未来的工作
Ø Cyclone Store针对读写Cache的优化
Ø 裸机容器的成熟解决方案的优化
Ø Rados层面4K IO性能优化
Ø RGW小文件系统的优化
Ø Librbd客户端的优化
Ø 端到端的协程的实现与管理
Ø 。。。
THANKS 感谢聆听

Weitere ähnliche Inhalte

Was ist angesagt?

美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术团队
 
Memcached vs redis
Memcached vs redisMemcached vs redis
Memcached vs redisqianshi
 
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...Ceph Community
 
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04   美团下一代分布式存储系统美团技术沙龙04   美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统美团点评技术团队
 
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangBuilding the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangCeph Community
 
“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosqlknuthocean
 
阿里云技术实践
阿里云技术实践阿里云技术实践
阿里云技术实践drewz lin
 
20220224台中演講k8s
20220224台中演講k8s20220224台中演講k8s
20220224台中演講k8schabateryuhlin
 
Design realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiDesign realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiCeph Community
 
Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)涛 吴
 
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)涛 吴
 
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)涛 吴
 
Q con成都主题演讲【弹性计算】by马介悦
Q con成都主题演讲【弹性计算】by马介悦Q con成都主题演讲【弹性计算】by马介悦
Q con成都主题演讲【弹性计算】by马介悦drewz lin
 
Ceph bluestore-tiering-2018-11-15
Ceph bluestore-tiering-2018-11-15Ceph bluestore-tiering-2018-11-15
Ceph bluestore-tiering-2018-11-15Jiaying Ren
 
了解集群
了解集群了解集群
了解集群Feng Yu
 
Ceph Day Shanghai - Ceph in Chinau Unicom Labs
Ceph Day Shanghai - Ceph in Chinau Unicom LabsCeph Day Shanghai - Ceph in Chinau Unicom Labs
Ceph Day Shanghai - Ceph in Chinau Unicom LabsCeph Community
 
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算Wensong Zhang
 
美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践美团点评技术团队
 
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileDanielle Womboldt
 
Ceph中国社区9.19 Some Ceph Story-朱荣泽03
Ceph中国社区9.19 Some Ceph Story-朱荣泽03Ceph中国社区9.19 Some Ceph Story-朱荣泽03
Ceph中国社区9.19 Some Ceph Story-朱荣泽03Hang Geng
 

Was ist angesagt? (20)

美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台
 
Memcached vs redis
Memcached vs redisMemcached vs redis
Memcached vs redis
 
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...
Application and Practice of Ceph in China Telecom Intensive Tianyi HD Project...
 
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04   美团下一代分布式存储系统美团技术沙龙04   美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
 
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangBuilding the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
 
“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql
 
阿里云技术实践
阿里云技术实践阿里云技术实践
阿里云技术实践
 
20220224台中演講k8s
20220224台中演講k8s20220224台中演講k8s
20220224台中演講k8s
 
Design realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiDesign realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang Li
 
Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)
 
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
 
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)
Behind Pegasus, What matters in a Distributed System (Arch summit shenzhen_2017)
 
Q con成都主题演讲【弹性计算】by马介悦
Q con成都主题演讲【弹性计算】by马介悦Q con成都主题演讲【弹性计算】by马介悦
Q con成都主题演讲【弹性计算】by马介悦
 
Ceph bluestore-tiering-2018-11-15
Ceph bluestore-tiering-2018-11-15Ceph bluestore-tiering-2018-11-15
Ceph bluestore-tiering-2018-11-15
 
了解集群
了解集群了解集群
了解集群
 
Ceph Day Shanghai - Ceph in Chinau Unicom Labs
Ceph Day Shanghai - Ceph in Chinau Unicom LabsCeph Day Shanghai - Ceph in Chinau Unicom Labs
Ceph Day Shanghai - Ceph in Chinau Unicom Labs
 
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算
 
美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践
 
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
 
Ceph中国社区9.19 Some Ceph Story-朱荣泽03
Ceph中国社区9.19 Some Ceph Story-朱荣泽03Ceph中国社区9.19 Some Ceph Story-朱荣泽03
Ceph中国社区9.19 Some Ceph Story-朱荣泽03
 

Ähnlich wie Operation and Maintenance of Large-Scale All-Flash Memory Ceph Storage Cluster - Wenke Zhao

Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Community
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践lovingprince58
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践drewz lin
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践Wensong Zhang
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局Alex Lau
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索liu sheng
 
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨Top100summit 夏彦刚-视频cdn系统建设关键要点探讨
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨drewz lin
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务drewz lin
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Wensong Zhang
 
Hp Storage
Hp StorageHp Storage
Hp Storageamulopan
 
200701011
200701011200701011
2007010115045033
 
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师Enlight Chen
 
Taobao海量图片存储与cdn系统 v2-系统架构师
Taobao海量图片存储与cdn系统 v2-系统架构师Taobao海量图片存储与cdn系统 v2-系统架构师
Taobao海量图片存储与cdn系统 v2-系统架构师Wensong Zhang
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaknuthocean
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统智杰 付
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统Dai Jun
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Wensong Zhang
 
Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02lovingprince58
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Michael Zhang
 

Ähnlich wie Operation and Maintenance of Large-Scale All-Flash Memory Ceph Storage Cluster - Wenke Zhao (20)

Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
 
Taobao base
Taobao baseTaobao base
Taobao base
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨Top100summit 夏彦刚-视频cdn系统建设关键要点探讨
Top100summit 夏彦刚-视频cdn系统建设关键要点探讨
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
 
Hp Storage
Hp StorageHp Storage
Hp Storage
 
200701011
200701011200701011
200701011
 
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师
章文嵩:Taobao海量图片存储与cdn系统 v2-系统架构师
 
Taobao海量图片存储与cdn系统 v2-系统架构师
Taobao海量图片存储与cdn系统 v2-系统架构师Taobao海量图片存储与cdn系统 v2-系统架构师
Taobao海量图片存储与cdn系统 v2-系统架构师
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 
Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 

Operation and Maintenance of Large-Scale All-Flash Memory Ceph Storage Cluster - Wenke Zhao

  • 2. 120 OSD 1000 OSD 5000 OSD 17000 OSD 35000 OSD Ceph在网易云的发展历史 2014年 2015年 2016年 2017年 2018年
  • 5. Ceph优化1 – Ceph Peering Ø 背景 当生产环境下集群规模大到一定规模(比如>100节点),Mon和OSD的压力都会指数级的增长;坏盘、 坏存储节点或者扩容都会导致长时间的PG Peering流程,此过程中,所有的用户IO都被阻塞,不能被 响应;从用户来看,云盘就会长时间卡顿(我们观察到的的卡顿长达2分钟多),极大地影响用户体验 和业务的服务。 Ø 目标 解决坏盘、宕机、扩容时用户IO卡顿的问题 Ø 设计思路 ü PG Peering时会阻塞用户IO,一个OSD包含100个左右PG。OSD上线或离线时100个PG会同时进 行Peering,但实际上只有1/3的PG需要立即进行Peering,剩余2/3的PG可以延迟进行。通过减 少同时进行Peering的PG数量来缓解IO卡顿问题 ü 主动检测坏盘或者有问题的磁盘控制器的发生,缩短器件损坏的周期,主动上报Mon
  • 6. Ceph优化1 – Ceph Peering cont. Started RepNot Recovery Primary advmap Active Clean Peering ReplicaActive Stray Reset Start actmap primary replica Started RepNot Recovery Primary advmap Active Clean Peering ReplicaActive Stray Reset Start actmap DeferPeering RepDefer Peering advmap advmap replicaprimary onpeering Defer_peering_entry 原PG中osdmap更新流程 新PG中osdmap更新流程 Ø 推迟非主节点的PG同步 Ø Peering阶段控制流量 Ø 发现坏盘,主动上报Mon Ø 坏盘或扩容,静默处理
  • 7. Ceph优化1 – Ceph Peering Cont. Ø 硬件的问题 ü RAID卡或者HBA卡的4S固定时间的Discovery流程 ü 放大Ceph IO的影响效果(10S) Ø 优化的结果 ü 通过Ceph Peering的优化,坏盘、坏节点、扩容等行 为对用户IO的影响降低到1S以内 ü 整个集群的稳定性大大提升,和运维时间缩短非常 明显
  • 8. Ceph优化2 – Partial Recovery can_recover_partial Activating DoRecovery WaitLocalRecoveryReserved AsyncReserver WaitRemoteRecoveryReserv ed Recovering Recovered LocalReoveryReserved AllRemoteReserved AllReplicaRecovered RepNotRecovering RepWaitRecoveryR eserved AsyncReserver RepRecovering RequestRecovery MRecoveryReserve AllReplicasRecovered Primary Replica DoPartialRecovery Yes NO Ø 基本思路 ü 利用PGLog中dirty extent数据的offset/len信 息,在恢复过程中进行增量数据恢复 ü 增加恢复的流控控制参数 (OSD_RESTORE_THROUGHPUT),控制恢 复的进度和影响,将对磁盘和网络的带宽压 力降低到最小程度
  • 9. Ceph优化2 – Partial Recovery Cont. Ø 优化的结果 ü 通过增量恢复和恢复带宽流控的优化,大量数据的恢复对用户IO影响的改善比较显著
  • 10. Ceph优化3 – Scrub的流控 Ø Scrub的现状 ü Scrub分为fast scrub 和 deep scrub ü Fast scrub只对元数据部分进行checksum计算 并校验 ü Deep scrub对整个数据块进行checksum计算 并校验 ü Scrub的配置是两种scrub都enable,且一天多 次进行scrub ü 读数据操作占用过多的磁盘带宽,导致多个 磁盘的diskUtil过高,不同程度的影响用户IO 和用户使用体验
  • 11. Ceph优化3 – Scrub的流控 cont. Ø 优化的结果 ü 经过此次优化的效果,在Scrub操作过程中,通过对读磁盘带宽的细粒度流控管理,达到了 进行Scrub的时候读磁盘行为对用户IO无明显影响的目标
  • 12. Ceph优化4 – LibRBD客户端线程数膨胀的问题 Ø 问题的背景 ü 在大规模Ceph块存储的集群中,当一个Ceph数据池的OSD数量超过一定数值(比如600 ~ 840个),客户端librbd为请求分配的线程数会发生膨胀。 ü 比如三个机柜满配840个OSD,那么每个客户端需要维护(12个卷 * 840 * 2)个线程总数,那 么需要宿主机为此预留50GB内存,严重地影响虚机交付数量和宿主机的稳定性;同时, 线程的增加也会导致线程上下文切换的开销 Ø 优化的工作 ü 基于高性能NRPC库的功能,对SimpleMessager的模型重构成 基于事件驱动的异步消息实现 ü 由虚拟机产生的IO或者请求由librbd层固定数量的线程来服 务,异步化实现下发IO或者请求到后端Ceph集群的模型 NRPC epoll IO RPC
  • 13. Ceph优化5 – OSD假死的问题 Ø 问题的背景 ü 在大规模Ceph块存储的集群中,Mon节点的压力非常大,网络抖动或者存储节点 的问题,会导致OSD与Mon之间、OSD之间的心跳会超时,某些情况下,个别 OSD会被Mon节点错误的标识为Down,从而影响系统的稳定性 Ø 优化的工作 ü 在秒级监控的系统帮助下,通过逐步的调整集群内Mon节点的心跳间隔来调控心 跳本身的压力,尽量减少OSD被误报假死的情况
  • 14. 未来的工作 Ø Cyclone Store针对读写Cache的优化 Ø 裸机容器的成熟解决方案的优化 Ø Rados层面4K IO性能优化 Ø RGW小文件系统的优化 Ø Librbd客户端的优化 Ø 端到端的协程的实现与管理 Ø 。。。