Построение катастрофоустойчивых и распределённых ЦОД традиционно является одной наиболее технически сложных задач в области инфраструктуры центров обработки данных. В рамках этой презентации мы рассмотрим более подробно саму постановку задачи, поговорим о технологических элементах, используемых в её решении, отличиях катастрофоустойчивых и распределённых ЦОД, влиянии расстояния между ЦОД на используемые подходы. Кроме того, мы поговорим о способах связи разнесённых сетей хранения данных, а также кратко рассмотрим подходы, используемые при организации связи территориально разнесённых сетевых фабрик. Сессия будет интересна специалистам, отвечающим за проектирование и эксплуатацию сетей территориально распределенных ЦОД.
2. Распределённые ЦОД
Цели создания
• Катастрофоустойчивость
• Непрерывность обработки
• Мобильность приложений
• Миграция систем
• Наращивание производительности/ёмкости
• Распределённые сервисы
• Географически-локализованные сервисы
3. Катастрофоустойчивость
Точка восстановления и время восстановления
Время
Момент
катастрофы
Последняя
резервная копия или
пригодные данные
Системы
восстановлены и
работоспособны
Время
восстановления
Точка
восстановления
(Recovery point
objective - RPO)
Меньше RPO/RTO
• Больше $$$
• Репликация
• «Горячий резерв»
Больше RPO/RTO
• Меньше $$$
• Резервирование на ленту
• «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности
4. § Развитие кластеризации для защиты от сбоя
§ Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД
§ Некоторые приложения поддерживают кластеризацию через L3 сеть
HeartbeatPrivate LAN
Public LAN VIP Cluster
Cluster A
Node 2
Cluster A
Node 1
Непрерывность бизнеса
Географически распределённые отказоустойчивые кластеры
5. § Мобильность виртуальных сервисов между разнесёнными сайтами
§ Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN
§ Основа для управления облачной нагрузкой и её миграции между «облаками»
DC 1 DC 2
Core Network
ESX-A source ESX-B target
DCI LAN extension
Cisco-VMware With EMC
& NetApp Validated Design
& Certification for
Virtualized Workload
Mobility
Мобильность виртуальных сервисов
Перемещение VM между ЦОД
6. Влияние расстояния
Задержка (latency)
Скорость света в вакууме ~300,000 км/с
Скорость света в оптоволокне: ~200,000 км/с
Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км
Для сравнения:
§ Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс
§ Среднее время доступа на SSD диске < 0.1 мс
§ Максимальная задержка, допускаемая VMWare для vMotion: 5 мс
RTT (10 мс начиная с vSphere 5.1)
7. Распределённые ЦОД
Классификация по расстоянию
Расстояние – ключевой фактор
Ближе:
§ Выше производительность
§ Синхронная репликация
§ Проще коммуникации
Дальше:
§ Катастрофоусточивость
§ Распределение сервисов
Компромисс!
Кампус
1–2 km
Метро
50-80 km
Региональное
(extended
Metro)
200-400km Основной
ЦОД
Резервный
ЦОД
Катастрофо-
устойчивый
ЦОД
Гео
8. Распределённые ЦОД
Технологические элементы
Связь сетей передачи данных
§ L2/L3 смежность
§ Мониторинг(heartbeat)/синхронизация в кластере
§ Репликация по IP
§ Подключение к транспортной сети
Связь сетей хранения данных
§ Доступ к удаленным СХД/лентам
§ Репликация массивов по FC
Оптимальный путь трафика
§ Оптимизация исходящего трафика
§ Оптимизация входящего трафика
10. Ограничено оптикой и BB_Credit
Влияние расстояния
Варианты объединения Fibre Channel SAN
Темное Волокно
CWDM
DWDM
SONET/SDH
ЦОД Кампус Метро Регион Страна
Расстояние
Sync
Sync (1,2,4Gbps)
Sync (1,2Gbps + subrate)
Async (WAN,1/10Gbps)FCIP
Ограничено оптикой и BB_Credit
Ограничено BB_Credit
ОптикаIP
Sync (1,2,4,10Gbps per λ)
Sync (Metro Eth)
Async
Земля
11. • BB_Credits нужны, чтобы «заполнить» соединение фреймами FC
• Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2
Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps
• Если BB_Credits не хватает для данного расстояния – снижается произодительность,
соединение простаивает
• Число BB_Credits определяется оборудованием и его настройками
16 Km
1 Gbps FC
4 Gbps FC
~½ km per Frame
~2 km per Frame
2 Gbps FC
~1 km per Frame
8 Gbps FC
~¼ km per Frame
BB_Credits и расстояние
Влияние расстояния
Задержка (latency) и Fibre Channel
12. FCoE для связи SAN между ЦОД?
Да! C Nexus 7000/7000 и модулями F2E/F3
§ Поддерживаемые расстояния для FCoE
транспорта:
§ Nexus 5500: до 3 км
§ Nexus 5600: до 20 км
§ Nexus 7000/7700 с F2E/F3 картами:
до 80 км с DWDM SFP+
§ Использование отдельных
соединений для LAN и SAN трафика
До 80 кмNexus
7000
Nexus
7000
Storage
VDC
Storage
VDC
Storage
VDC
Storage
VDC
13. FCIP: Fibre Channel over IP
Соединение «точка-точка» (туннель) между двумя FCIP устройствами
Используется TCP – могут использоваться механизмы оптимизации (WAAS)
Создаётся единая FC фабрика (общий FSPF домен)
Транспорт – IP сеть, в том числе и на большие расстояния
FCIP: IETF стандарт для связи Fibre Channel SAN через IP
(RFCs 3821 и 3643)
FC SANFC SAN
IP Network
FCIP Tunnel
14. Расширение SAN и Inter-VSAN Routing (IVR)
§ Сбой на «транзитной» VSAN_20
(оборудование или кабель) не нарушит
трафик в VSAN_10 или VSAN_30
§ Работает с любым транспортом (FC,
SONET/SDH, DWDM/CWDM, FCIP)
§ Нужно, если данные VSAN
используются для локальной обработки
VSAN_5 - Site 1 Host Fabric
VSAN_10 - Site 1 Replication Fabric
VSAN_20 - Inter-site SAN Extension Fabric
VSAN_30 - Site 2 Replication Fabric
Site 2
Site 1 Local
VSAN_5
Transit
VSAN_20
(IVR)
Replication
VSAN_10
Replication
VSAN_30
15. Синхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на обеих сторонах (zero RPO)
§ «Метро»расстояния
Асинхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на основном (локальном) диске, в то время как его коприрование на
удалённый массив продолжается
§ Неограниченные расстояния
1
2
3
4 1
3
2
Synchronous
Data Replication
Asynchronous
Data Replication
Расширение SAN
Синхронная и асинхронная репликация
16. § SCSI протокол (FC) требует два round trip на операцию
§ Вносимая задержка операции 20µs/км, 100 км = 2 мс
§ В зависимости от приложения синхронную репликацию, как правило
ограничивают 50-100 км
§ I/O Acceleration «убирает» один round-trip
Local Storage Array Remote Storage Array
250 µs : Rec_Ready ?
250 µs : Wait for response?
250 µs : Send data
250 µs : Wait for Ack?
50 км 1ms
Расширение SAN
Синхронная репликация
1
2
3
4
17. DC 1 DC 2
Core Network
Virtual Center
ESX-A source ESX-B target
L2 extension for vMotion Network
Target
Volumes
Initiator
Доступ к СХД и связь ЦОД
Вариант 1 – разделяемая СХД
18. Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Повышение произодительности с
использованием IOA на Cisco MDS
Доступ к СХД и связь ЦОД
Разделяемая СХД – использование Cisco IO Acceleration
19. Работа ускорения ввода/вывода
Ускорение синхронной репликации и резервирования
на ленту: аналогичнные подходы
На работу с лентой дополнительно влияют
особенности физического носителя и ограничения
буферизации
Write Acceleration имитирует только Transfer Ready,
Tape Acceleration имитирует Command Status
WRITE
XFER_RDY
XFER_RDY
Write Acceleration (WA)
Reduction in I/O Latency ~equal to one round trip time
(RTT)
STATUS
WAWA
DATA
WRITE-1
XFER_RDY
XFER_RDY
STATUS
DATA
Tape Acceleration (TA)
TATA
STATUS
WRITE-2
XFER_RDY
DATA
STATUS
XFER_RDY
STATUS
WRITE-1
WRITE-2
WRT file mark
WRT file mark
WRT fm sts
WRT fm sts
20. http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Доступ к СХД и связь ЦОД
Вариант 2 - NetApp FlexCache (Active/Cache)
Temp
Cache
1
?
4
Read
data
3data
2
Read
2
§ FlexCache не работает как отложенный кеш записи
§ FlexCache подтверждает операцию только после подтверждения от СХД
data
1
Write
3
2
Write
4ACK
ACK
data
data
21. § Хосты на обеих сторонах
одновременно имеют доступ к
распределённым виртуальным
томам
§ Непрерыная синхронизация
§ Запись защищается на обоих
сайтах
§ Чтение – с кеша VPLEX или
местного тома ЦОД BЦОД A
Fibre Channel
Distributed Virtual Volume
Synchronous Latency
Доступ к СХД и связь ЦОД
Вариант 3 - EMC VPLEX Metro (Active/Active)
24. Влияние расстояния
Передача данных
Стандартные интерфейсы 10Гбит/с:
§ 10GBASE-LR – до 10 км
§ 10GBASE-ER – до 40 км
§ 10GBASE-ZR – до 80 км
Стандартные интерфейсы 40Гбит/с
§ 40GBASE-LR4 – до 10 км
Стандартные интерфейсы 100Гбит/с
§ 100GBASE-LR4 – до 10 км
§ 100GBASE-ER4 – до 40 км
DWDM – до 1000+ км при использовании оптического усиления, не
ограничено при использовании регенерации
Через сеть (IP, MPLS…) - без ограничений
25. Связь сетей ЦОД != растягивание VLAN !
Много задач, требующих растягивания подсетей:
§ Отказоустойчивые кластеры
§ Миграция виртуальных машин
- но это не значит, что вы всегда обязаны растягивать VLAN:
§ Кластеризация на L3
§ Растягивание подсетей без растягивания VLAN (LISP)
§ Катастрофоустойчивые ЦОДы – связь на L2 снижает степень
изоляции
В любом случае, не забывайте про:
§ Маршрутизацию между ЦОД
§ Связь ЦОД с внешним миром – Интернетом или корпоративной
магистралью
26. Ethernet
Ø VSS & vPC, FabricPath?
§ Multi-Chassis EtherChannel для связи пары ЦОД
§ FabricPath для связи многих сайтов – обсуждение далее
§ По тёмной оптике или xWDM
§ “Технологии LAN"
IP
Ø OTV
§ Внедрение на CE
§ Подходит для корпоративных внедрений
§ Малая зависимость от транспорта – требуется только IP сеть
§ «Маршрутизация по MAC адресам»
Растягивание VLAN
Варианты технологий
Транспорт Критерии применения
MPLS
Ø EoMPLS & A-VPLS & H-VPLS
§ Внедрение на PE
§ Масштабирование и multi-tenancy
§ Возможно поверх GRE
§ Апробированный вариант, хорошо подходит SP
27. Оптимальный путь
В чём именно проблема?
Layer 3 Core
Access
Agg
Access
Agg
10.1.1.0/24 advertised into L3
Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3
DC A is the primary entry point
Node A
ESX
ESX
Virtual Machine Virtual Machine
VMware
vCenter
Data Center 1 Data Center 2
28. Оптимальный путь
Хотелось бы так...
Access
Agg
Access
Agg
Node A
ESX
ESX
Virtual Machine
VMware
vCenter
Data Center 1 Data Center 2
Layer 3 Core
29. Исходящий трафик
§ Локализация FHRP
Входящий трафик
§ GSLB
— Выбор сайта с помощью DNS
§ Route Health Injection (RHI)
— Анонс /32 маршрутов на активные сервисы
§ Locator/ID Separation Protocol – LISP-VM
— Маршрутизация до сервиса
Оптимизация пути трафика
30. Связь ЦОД и сетевые фабрики
Какой подход выбрать?
Единая фабрика
• Ограниченная стабильность и
изоляция сайтов
• Если нет control plane – опора на
фладинг
• Единый домен multiсast
• Локализация «шлюза по умолчанию»?
• В FabricPath, VXLAN – нет или
затруднена
• В ACI помогают proxy и anycast
gateway
Fabric
Небольшие расстояния – «тёмная оптика»/ DWDM
Fabric
Связь внутри кампуса
Фабрика: VxLAN, ACI, FabricPath
30
Подробный разбор вопроса для VXLAN:
http://yves-louis.com/DCI/?p=965
31. Связь ЦОД и сетевые фабрики
Какой подход выбрать?
Любое расстояние
OTV/VPLS/EVPN
L3 WAN
vPC
Классическая модель DCI с
выделенным устройством/сервисом
• Изоляция доменов отказов
• Локализация «шлюза по умолчанию»
• Оптимизация исходящего трафика
• Оптимизация локальной
маршрутизации
• Rate limiting для нужных типов трафика
• Ограничение фладинга с OTV
• Трансляция VLAN, VNI
• Поддержка unicast L3 транспорта
Небольшие расстояния – «тёмная оптика»/ DWDM
или
31
33. Распределённые ЦОД
Кампус – до нескольких км
• Типичный сценарий – несколько ЦОД в комплексе зданий или на
территории предприятия
• Катастрофоустойчивость: минимальна
• Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4
• Связь SAN: оптоволокно -LW
• Оптимизация пути: не нужна
• Рассмотривать как часть единого модульного ЦОД
34. Распределённые ЦОД
«Метро» – несколько десятков (до 60-100) км
• Типичный сценарий – «резервный ЦОД» в пределах города или
«метро-области»
• Катастрофоустойчивость: частично
• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости
- IP+OTV или MPLS/VPLS
• Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP
• Оптимизация пути: по возможности
• При наличии возможности – использование «тёмного волокна» для
LAN и SAN, синхронная репликация, технологии метрокластеров,
Vmotion
35. Распределённые ЦОД
«Регион» – до несколько сотен (300-400) км
• Типичный сценарий – «резервный ЦОД» в другом городе в пределах
региона
• Катастрофоустойчивость: значительная
• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)
• Связь SAN: FCIP, DWDM (при наличии)
• Оптимизация пути: желательна
• Может использоваться для ряда «метрокластерных» технологий
(Vmotion). Асинхронная репликация или синхронная с ограничениями и
дополнительными инструментами
36. Распределённые ЦОД
«Гео» – многие сотни и тысячи км
• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе
страны
• Катастрофоустойчивость: высокая
• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера
• Связь SAN: FCIP – если требует технология кластера
• Оптимизация пути: необходима
• Асинхронная репликация, «log shipping» или иные средства
катастрофоустойчивости. Высокое время восстановления (часы и
более). Непосредственная связь между ЦОД – только если требует
технология геокластера
37. Пример: собственные ЦОД Cisco
Metro-Virtual DC (MVDC)
Непрерывность обработки, катастрофоустойчивость
и оптимальное использование
DC1
(Texas)
DC2
(Texas)
“Disaster Recovery (DR)”
Катастрофоустойчивый
удалённый ЦОД (RTP)
“Operational Continuity”
Единая пара ЦОД
с локальной отказоустойчивостью
Метро-разнесение
(в пределах 50 оптических миль) Размещение непродуктивных приложений
Автоматическая смена функций при катастрофе
с помощью сервисных профилей Cisco UCS
Георазнесение (> 200 миль)
http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf