Ocean base 破解数据库高可用难题

志（解）孙东伦
xielun.szd@alipay.com
杭州
2014-6-15
破解数据高可用库难题

AgendaAgenda
数据的高可用性传统库
OceanBase 的高可用架构
OceanBase 的分布式选举
小结

高可用的数据系库统高可用的数据系库统
数据可用性：保数据可证访问
数据安全性：防止数据失丢
故障不可避免
 件：软 Bug
硬件：阿里数据中心年数万次每
天：致命的灾
人：操作为误
猜：按概率排序竞题

几个“几个“九九”的认识”的认识

可用性的价业务值可用性的价业务值
5 个 9 可用性
5.25 分意味着什？钟么
= 580,000,000
= 17 万条内裤
= 伤百万用的心户

数据的高可用传统库数据的高可用传统库
 机的高可用单
高可用的硬件
 件冗余组级
无法避免点故障？单
集群的高可用
高端的存区域网（储 SAN ）
 机房部署，无法避免的“天 ”？单灾
主制的高可用备复
可以跨机房

高可用的机单高可用的机单
双路冗余交源热换电
双路市独立供电电
双路冗余光交互有网纤专络
HostHost HostHost
SwitchSwitch SwitchSwitch
DataBaseDataBase

集群的高可用集群的高可用
InfiniBand: 40Gbit/s
Latency: 1us
v.s.
Ethernet: 250 us
InfiniBand: 40Gbit/s
Latency: 1us
v.s.
Ethernet: 250 us
DataBase
Instance
DataBase
Instance
OSOS
Node 1Node 1
DataBase
Instance
DataBase
Instance
OSOS
Node 2Node 2
DataBase
Instance
DataBase
Instance
OSOS
Node 3Node 3
DataBase FilesDataBase Files
Shared StorageShared Storage
高端存储
高档服务器

主的高可用备主的高可用备
主制备复
主机提供写，机提供服读备读务
主机宕机，把机切主机备换为
一主 N 备

数据主制库备复数据主制库备复
主机制复 redo 日志到机备
同模式（最大保）步护
• 机备是否写后答主机？盘应
 模式（最高性能）异步
• 主机不等待机的答备应
思考：比如上模式题对两种

数据主制库备复数据主制库备复
主机制复 redo 日志到机备
混合模式（最大可用）
• 同模式不可用，模式步时转为异步
• 衡了最大性能和数据的最大保权对护

高可用集群高可用集群 ++ 主制备复主制备复
IDC-1 IDC-2
Redo
Stream
Redo
Stream
DataBase
Instance
DataBase
Instance
OSOS
Node 1Node 1
DataBase
Instance
DataBase
Instance
OSOS
Node 2Node 2
DataBase
Instance
DataBase
Instance
OSOS
Node 1Node 1
DataBase
Instance
DataBase
Instance
OSOS
Node 2Node 2
太了！！贵

OceanBase 的高可用性架构

OceanBaseOceanBase 架构架构 (( 机群单机群单 ))
注：后内容会将续 OB 集群作一个单为
DataBase
修改量增
用接口应
基数据线
Root
Server
控中心总

分布式境的困境环分布式境的困境环
普通服器务 + 公用的网境络环
故障成常为态
跨机房部署是必需
OceanBase 只能走主制的路备复
如何保真正的数据零失？证丢
如何衡性能、可用性、数据安全？权
CPU

最大可用 = 最大保（同）护步 + 最大性能（异
）步
最大可用模式的数据失丢
基于主制的困境备复基于主制的困境备复
MasterMaster SlaveSlave
7 8 9 7 87 8 9

OceanBaseOceanBase 主同备步主同备步
主行写事并同库执务步 redo 日志到备库
 多数成功就写事成功认为务
MasterMaster
IDC-1IDC-1
SlaveSlave
IDC-3IDC-3
SlaveSlave
IDC-2IDC-2
7 8
7
9
8
7 9

PaxosPaxos
"Time, Clocks, and
the Ordering of Events
in a Distributed
System"
Byzantine generals
Paxos
LaTeX
2013 ACM Turing
Award

基于投票的同制步复基于投票的同制步复
 点优
 保了数据安全性证
 redo 日志同写多强步份
更大化系的可用性统
 机房故障不影写服单响读务
数据一致性 & 系可用性：统 3/5 > 2/3 > 2/2

同步 redo 日志写多保数据零失份证丢
多数写成功即成功提供更高的可用性
小结小结
MasterMaster
IDC-1IDC-1
SlaveSlave
IDC-3IDC-3
SlaveSlave
IDC-2IDC-2

投票和选举投票和选举
流程怎保成功？选举么证选举

原：任意刻最多只能有一个则时 Leader
投票，以不可靠成提供可靠服协议员务
 多数 ( 超半数过 ) 成可用服可用员则务
 投票简单协议
 要容忍网分区络
 Leader 租（约 Lease ）
分布式概述选举问题分布式概述选举问题
Leader

分布式基本原理选举分布式基本原理选举
Paxos 的基本要求协议
成不假员说话 ( 非拜占庭式 )
 个成不自相矛盾单员说话：投票给 A 了，就不能再投票给
B
任何修改需要多数成同意员：多个成投票的同员步
 个成不自相矛盾单员说话
 投出的票行持久化？对进
 住自己在一个记 lease 周期内的投票 ( 分布式选举 )
重后一个启 lease 周期内不投票
多个成投票的同员步
有者协调 (leader)
无者？协调

多个成投票的同员步多个成投票的同员步
问题
系或者原统刚启动 leader 常异 lease 期后，过选举
leader 的候，各个参与者的投票各不相同，个参时时间每
与者收到票的各不相同选时间
投票后，参与者在一轮 lease 周期内不得再次投票 (“ 不得
自相矛盾” )
已有方案
各个参与者在起投票，延某个随机发时迟时间
(100ms~300ms) ，最早起者通常成新的发为 leader
 序与密合、以融入中时逻辑选举逻辑紧耦业务规则难选举序与密合、以融入中时逻辑选举逻辑紧耦业务规则难选举
容易出失现选举败 (election split) ，下次主要等选 Lease 期！！过

““ 同步同步”” 无主选举无主选举
按一的统规则 (“ 投票重权 ” ) 新选择 leader
所有成在员 T1 刻时 “ 同时同时” 起发选举
接收投票预接收投票预接收投票接收投票接收广播接收广播
T1: 投票预 T2: 投票
T4: 选举结
束
T3: 票计 &
广播

““ 同 ”步时钟同 ”步时钟
 充当无主的者时钟选举协调
 个程的被均分片每进时间为时间
 个片内只能行一次无主每时间进选举
 在 Tcycle 整数倍刻起时发选举

无主序分析选举时无主序分析选举时
 偏差最大时钟 Tdiff ，网程收理最络单发传输处时间
长 Tst
Step 1 ： T1 刻广播投票重时权
Step 2 ：接收投票重并在权 T2 刻向最大者投票时值
 投票到：预达时间 [T1-Tdiff×2 ， T1+Tdiff×2+Tst=T2]
T3: 票计 &
广播
T4: 选举结
束

无主序分析选举时无主序分析选举时
Step 3 ：接收票，选 T3 刻票，得票半者时计过
成功并广播
投票到：达时间 [T2-Tdiff×2 ， T2+Tdiff×2+Tst=T3]
Step 4 ：接收新任 leader 广播并在 T4 刻时结
束选举
新任 leader 广播到：达时间 [T3-
Tdiff×2 ， T3+Tdiff×2+Tst=T4]
 耗选举时 Telect=T4-T1=Tdiff×6+Tst×3
T3: 票计 &
广播
T4: 选举结
束

LeaseLease 及无主周期选举及无主周期选举
 偏差时钟 Tdiff=100ms ，网程络单传输 Tst=200ms
 耗选举时 Telect=Tdiff×6+Tst×3=1200ms
 展的耗扩选举时 Telect2=Telect+200=1400ms
Tlease=4×Telect2=5600ms ，从 TT11 始开
无主周期选举 Tcycle=5×Tlease=7000ms
T1
Tlease
Tlease
Tcycle
TcycleT4
T3: 票计 &
广播
T4: 选举结
束

Why TWhy Tcyclecycle > T> Tleaselease ??
5 个成员 C1~C5 选举
T1 刻始，出新时开选举选 leader
C1
T4 刻时 C2~C5 未收到 C1 新任
leader 广播
Tcycle 刻时 C2~C5 重新始，开选举选
出新 leader C4
C
2
C
1
C
3C
5
C
4
Clien
t
T1
Tlease
Tlease
Tcycle
TcycleT4
T3: 票计 &
广播
T4: 选举结
束

““ 同步同步”” 无主的缺点选举优无主的缺点选举优
 点优
超半数成正常且参与，一定成功过员则选举
 ：定数据实现简单长结构 + 新消息直接覆盖旧的 + 定时处
理
缺点
 最大偏差及最大网有要求对时钟络传输时间
Leader 常后，最异长 (Tlease+ Tcycle+Telect) 出新选 leader
Tlease
Tlease Tcycle
Tcycle
T1 T3

的棒性选举协议鲁的棒性选举协议鲁
可能双主 ( 裂脑 )
无主：若选举 Tdiff > (Telect2+T3-T1)=2200ms
自控：动监 A 在 Ta 刻包，时发 B 在 Tb 刻收到，：时则 -
2*Tdiff <= Tb-Ta <= 2*Tdiff + Tst
Tlease
Tlease
Tcycle
Tcycle
T1 T3
Leader
Tlease
Leader
Tlease

总结总结
 数据的高可用性传统库
依昂的硬件赖贵设备
主同的局限性备步
OceanBase 的高可用性架构
不可靠的 PC 服器务
利用分布式投票的多机日志同实现步
保一致的同提供更大可用性证强时
利用分布式了可靠的主选举实现选
主宕机后自恢保写的可用性动复证

ThanksThanks
源的分布式系数据开关库
OceanBase
http://alibaba.github.io/oceanbase/

Ocean base 破解数据库高可用难题

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (8)

Ähnlich wie Ocean base 破解数据库高可用难题

Ähnlich wie Ocean base 破解数据库高可用难题 (20)

Ocean base 破解数据库高可用难题

Hinweis der Redaktion