Построение территориально распределенных ЦОД

Построение территориально
распределенных ЦОД
Эльдар Женсыкбаев
Системный инженер-консультант
ezhensyk@cisco.com
CCIE #36340
10/1/15 © 2015 Cisco and/or its affiliates. All rights reserved.

Распределённые ЦОД
Цели создания
•  Катастрофоустойчивость
•  Непрерывность обработки
•  Мобильность приложений
•  Миграция систем
•  Наращивание производительности/ёмкости
•  Распределённые сервисы
•  Географически-локализованные сервисы

Катастрофоустойчивость
Точка восстановления и время восстановления
Время
Момент
катастрофы
Последняя
резервная копия или
пригодные данные
Системы
восстановлены и
работоспособны
Время
восстановления
Точка
восстановления
(Recovery point
objective - RPO)
Меньше RPO/RTO
•  Больше $$$
•  Репликация
•  «Горячий резерв»
Больше RPO/RTO
•  Меньше $$$
•  Резервирование на ленту
•  «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности

§  Развитие кластеризации для защиты от сбоя
§  Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД
§  Некоторые приложения поддерживают кластеризацию через L3 сеть
HeartbeatPrivate LAN
Public LAN VIP Cluster
Cluster A
Node 2
Cluster A
Node 1
Непрерывность бизнеса
Географически распределённые отказоустойчивые кластеры

§  Мобильность виртуальных сервисов между разнесёнными сайтами
§  Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN
§  Основа для управления облачной нагрузкой и её миграции между «облаками»
DC 1 DC 2
Core Network
ESX-A source ESX-B target
DCI LAN extension
Cisco-VMware With EMC
& NetApp Validated Design
& Certification for
Virtualized Workload
Mobility
Мобильность виртуальных сервисов
Перемещение VM между ЦОД

Влияние расстояния
Задержка (latency)
Скорость света в вакууме ~300,000 км/с
Скорость света в оптоволокне: ~200,000 км/с
Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км
Для сравнения:
§  Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс
§  Среднее время доступа на SSD диске < 0.1 мс
§  Максимальная задержка, допускаемая VMWare для vMotion: 5 мс
RTT (10 мс начиная с vSphere 5.1)

Классификация по расстоянию
Расстояние – ключевой фактор
Ближе:
§  Выше производительность
§  Синхронная репликация
§  Проще коммуникации
Дальше:
§  Катастрофоусточивость
§  Распределение сервисов
Компромисс!
Кампус
1–2 km
Метро
50-80 km
Региональное
(extended
Metro)
200-400km Основной
ЦОД
Резервный
ЦОД
Катастрофо-
устойчивый
ЦОД
Гео

Технологические элементы
Связь сетей передачи данных
§  L2/L3 смежность
§  Мониторинг(heartbeat)/синхронизация в кластере
§  Репликация по IP
§  Подключение к транспортной сети
Связь сетей хранения данных
§  Доступ к удаленным СХД/лентам
§  Репликация массивов по FC
Оптимальный путь трафика
§  Оптимизация исходящего трафика
§  Оптимизация входящего трафика

Связь сетей хранения данных

Ограничено оптикой и BB_Credit
Варианты объединения Fibre Channel SAN
Темное Волокно
CWDM
DWDM
SONET/SDH
ЦОД Кампус Метро Регион Страна
Расстояние
Sync
Sync (1,2,4Gbps)
Sync (1,2Gbps + subrate)
Async (WAN,1/10Gbps)FCIP
Ограничено оптикой и BB_Credit
Ограничено BB_Credit
ОптикаIP
Sync (1,2,4,10Gbps per λ)
Sync (Metro Eth)
Async
Земля

•  BB_Credits нужны, чтобы «заполнить» соединение фреймами FC
•  Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2
Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps
•  Если BB_Credits не хватает для данного расстояния – снижается произодительность,
соединение простаивает
•  Число BB_Credits определяется оборудованием и его настройками
16 Km
1 Gbps FC
4 Gbps FC
~½ km per Frame
~2 km per Frame
2 Gbps FC
~1 km per Frame
8 Gbps FC
~¼ km per Frame
BB_Credits и расстояние
Задержка (latency) и Fibre Channel

FCoE для связи SAN между ЦОД?
Да! C Nexus 7000/7000 и модулями F2E/F3
§  Поддерживаемые расстояния для FCoE
транспорта:
§  Nexus 5500: до 3 км
§  Nexus 5600: до 20 км
§  Nexus 7000/7700 с F2E/F3 картами:
до 80 км с DWDM SFP+
§  Использование отдельных
соединений для LAN и SAN трафика
До 80 кмNexus
7000
Nexus
7000
Storage
VDC
Storage
VDC
Storage
VDC
Storage
VDC

FCIP: Fibre Channel over IP
Соединение «точка-точка» (туннель) между двумя FCIP устройствами
Используется TCP – могут использоваться механизмы оптимизации (WAAS)
Создаётся единая FC фабрика (общий FSPF домен)
Транспорт – IP сеть, в том числе и на большие расстояния
FCIP: IETF стандарт для связи Fibre Channel SAN через IP
(RFCs 3821 и 3643)
FC SANFC SAN
IP Network
FCIP Tunnel

Расширение SAN и Inter-VSAN Routing (IVR)
§ Сбой на «транзитной» VSAN_20
(оборудование или кабель) не нарушит
трафик в VSAN_10 или VSAN_30
§ Работает с любым транспортом (FC,
SONET/SDH, DWDM/CWDM, FCIP)
§ Нужно, если данные VSAN
используются для локальной обработки
VSAN_5 - Site 1 Host Fabric
VSAN_10 - Site 1 Replication Fabric
VSAN_20 - Inter-site SAN Extension Fabric
VSAN_30 - Site 2 Replication Fabric
Site 2
Site 1 Local
VSAN_5
Transit
VSAN_20
(IVR)
Replication
VSAN_10
Replication
VSAN_30

Синхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на обеих сторонах (zero RPO)
§  «Метро»расстояния
Асинхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на основном (локальном) диске, в то время как его коприрование на
удалённый массив продолжается
§  Неограниченные расстояния
1
2
3
4 1
3
2
Synchronous
Data Replication
Asynchronous
Data Replication
Расширение SAN
Синхронная и асинхронная репликация

§  SCSI протокол (FC) требует два round trip на операцию
§  Вносимая задержка операции 20µs/км, 100 км = 2 мс
§  В зависимости от приложения синхронную репликацию, как правило
ограничивают 50-100 км
§  I/O Acceleration «убирает» один round-trip
Local Storage Array Remote Storage Array
250 µs : Rec_Ready ?
250 µs : Wait for response?
250 µs : Send data
250 µs : Wait for Ack?
50 км 1ms
Расширение SAN
Синхронная репликация
1
2
3
4

DC 1 DC 2
Core Network
Virtual Center
L2 extension for vMotion Network
Target
Volumes
Initiator
Доступ к СХД и связь ЦОД
Вариант 1 – разделяемая СХД

Core Network
DC 1 DC 2
Virtual Center
Повышение произодительности с
использованием IOA на Cisco MDS
Разделяемая СХД – использование Cisco IO Acceleration

Работа ускорения ввода/вывода
Ускорение синхронной репликации и резервирования
на ленту: аналогичнные подходы
На работу с лентой дополнительно влияют
особенности физического носителя и ограничения
буферизации
Write Acceleration имитирует только Transfer Ready,
Tape Acceleration имитирует Command Status
WRITE
XFER_RDY
XFER_RDY
Write Acceleration (WA)
Reduction in I/O Latency ~equal to one round trip time
(RTT)
STATUS
WAWA
DATA
WRITE-1
XFER_RDY
XFER_RDY
STATUS
DATA
Tape Acceleration (TA)
TATA
STATUS
WRITE-2
XFER_RDY
DATA
STATUS
XFER_RDY
STATUS
WRITE-1
WRITE-2
WRT file mark
WRT file mark
WRT fm sts
WRT fm sts

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core Network
DC 1 DC 2
Virtual Center
Вариант 2 - NetApp FlexCache (Active/Cache)
Temp
Cache
1
?
4
Read
data
3data
2
Read
2
§  FlexCache не работает как отложенный кеш записи
§  FlexCache подтверждает операцию только после подтверждения от СХД
data
1
Write
3
2
Write
4ACK
ACK
data
data

§  Хосты на обеих сторонах
одновременно имеют доступ к
распределённым виртуальным
томам
§  Непрерыная синхронизация
§  Запись защищается на обоих
сайтах
§  Чтение – с кеша VPLEX или
местного тома ЦОД BЦОД A
Fibre Channel
Distributed Virtual Volume
Synchronous Latency
Вариант 3 - EMC VPLEX Metro (Active/Active)

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html
Core Network
Virtual Center
VPLEX Virtual Layer
DC 1 DC 2
Initiator
Initiator
Target
VPLEX
Engine
EMC
VMAX VPLEX
Engine
EMC
CLARiiON
Target
FromtheHost
FromtheStorage
LUNv LUNv
Synchronous Latency requiments ~100 kms max
Вариант 3 - EMC VPLEX Metro (Active/Active)

Связь сетей передачи данных

Передача данных
Стандартные интерфейсы 10Гбит/с:
§  10GBASE-LR – до 10 км
§  10GBASE-ER – до 40 км
§  10GBASE-ZR – до 80 км
Стандартные интерфейсы 40Гбит/с
§  40GBASE-LR4 – до 10 км
Стандартные интерфейсы 100Гбит/с
§  100GBASE-LR4 – до 10 км
§  100GBASE-ER4 – до 40 км
DWDM – до 1000+ км при использовании оптического усиления, не
ограничено при использовании регенерации
Через сеть (IP, MPLS…) - без ограничений

Связь сетей ЦОД != растягивание VLAN !
Много задач, требующих растягивания подсетей:
§  Отказоустойчивые кластеры
§  Миграция виртуальных машин
- но это не значит, что вы всегда обязаны растягивать VLAN:
§  Кластеризация на L3
§  Растягивание подсетей без растягивания VLAN (LISP)
§  Катастрофоустойчивые ЦОДы – связь на L2 снижает степень
изоляции
В любом случае, не забывайте про:
§  Маршрутизацию между ЦОД
§  Связь ЦОД с внешним миром – Интернетом или корпоративной
магистралью

Ethernet
Ø VSS & vPC, FabricPath?
§ Multi-Chassis EtherChannel для связи пары ЦОД
§ FabricPath для связи многих сайтов – обсуждение далее
§ По тёмной оптике или xWDM
§ “Технологии LAN"
IP
Ø  OTV
§ Внедрение на CE
§ Подходит для корпоративных внедрений
§ Малая зависимость от транспорта – требуется только IP сеть
§ «Маршрутизация по MAC адресам»
Растягивание VLAN
Варианты технологий
Транспорт Критерии применения
MPLS
Ø EoMPLS & A-VPLS & H-VPLS
§ Внедрение на PE
§ Масштабирование и multi-tenancy
§ Возможно поверх GRE
§ Апробированный вариант, хорошо подходит SP

Оптимальный путь
В чём именно проблема?
Layer 3 Core
Access
Agg
Access
Agg
10.1.1.0/24 advertised into L3
Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3
DC A is the primary entry point
Node A
ESX
ESX

Virtual Machine Virtual Machine
VMware
vCenter
Data Center 1 Data Center 2

Оптимальный путь
Хотелось бы так...
Access
Agg
Access
Agg
Node A
ESX
ESX

Virtual Machine
VMware
vCenter
Data Center 1 Data Center 2
Layer 3 Core

Исходящий трафик
§ Локализация FHRP
Входящий трафик
§ GSLB
— Выбор сайта с помощью DNS
§ Route Health Injection (RHI)
— Анонс /32 маршрутов на активные сервисы
§ Locator/ID Separation Protocol – LISP-VM
— Маршрутизация до сервиса
Оптимизация пути трафика

Связь ЦОД и сетевые фабрики
Какой подход выбрать?
Единая фабрика
•  Ограниченная стабильность и
изоляция сайтов
•  Если нет control plane – опора на
фладинг
•  Единый домен multiсast
•  Локализация «шлюза по умолчанию»?
•  В FabricPath, VXLAN – нет или
затруднена
•  В ACI помогают proxy и anycast
gateway
Fabric
Небольшие расстояния – «тёмная оптика»/ DWDM
Fabric
Связь внутри кампуса
Фабрика: VxLAN, ACI, FabricPath
30
Подробный разбор вопроса для VXLAN:
http://yves-louis.com/DCI/?p=965

Связь ЦОД и сетевые фабрики
Какой подход выбрать?
Любое расстояние
OTV/VPLS/EVPN
L3 WAN
vPC
Классическая модель DCI с
выделенным устройством/сервисом
•  Изоляция доменов отказов
•  Локализация «шлюза по умолчанию»
•  Оптимизация исходящего трафика
•  Оптимизация локальной
маршрутизации
•  Rate limiting для нужных типов трафика
•  Ограничение фладинга с OTV
•  Трансляция VLAN, VNI
•  Поддержка unicast L3 транспорта
Небольшие расстояния – «тёмная оптика»/ DWDM
или
31

Типы ЦОД и выбор подходов

Кампус – до нескольких км
•  Типичный сценарий – несколько ЦОД в комплексе зданий или на
территории предприятия
•  Катастрофоустойчивость: минимальна
•  Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4
•  Связь SAN: оптоволокно -LW
•  Оптимизация пути: не нужна
•  Рассмотривать как часть единого модульного ЦОД

«Метро» – несколько десятков (до 60-100) км
•  Типичный сценарий – «резервный ЦОД» в пределах города или
«метро-области»
•  Катастрофоустойчивость: частично
•  Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости
- IP+OTV или MPLS/VPLS
•  Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP
•  Оптимизация пути: по возможности
•  При наличии возможности – использование «тёмного волокна» для
LAN и SAN, синхронная репликация, технологии метрокластеров,
Vmotion

«Регион» – до несколько сотен (300-400) км
•  Типичный сценарий – «резервный ЦОД» в другом городе в пределах
региона
•  Катастрофоустойчивость: значительная
•  Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)
•  Связь SAN: FCIP, DWDM (при наличии)
•  Оптимизация пути: желательна
•  Может использоваться для ряда «метрокластерных» технологий
(Vmotion). Асинхронная репликация или синхронная с ограничениями и
дополнительными инструментами

«Гео» – многие сотни и тысячи км
•  Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе
страны
•  Катастрофоустойчивость: высокая
•  Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера
•  Связь SAN: FCIP – если требует технология кластера
•  Оптимизация пути: необходима
•  Асинхронная репликация, «log shipping» или иные средства
катастрофоустойчивости. Высокое время восстановления (часы и
более). Непосредственная связь между ЦОД – только если требует
технология геокластера

Пример: собственные ЦОД Cisco
Metro-Virtual DC (MVDC)
Непрерывность обработки, катастрофоустойчивость
и оптимальное использование
DC1
(Texas)
DC2
(Texas)
“Disaster Recovery (DR)”
Катастрофоустойчивый
удалённый ЦОД (RTP)
“Operational Continuity”
Единая пара ЦОД
с локальной отказоустойчивостью
Метро-разнесение
(в пределах 50 оптических миль) Размещение непродуктивных приложений
Автоматическая смена функций при катастрофе
с помощью сервисных профилей Cisco UCS
Георазнесение (> 200 миль)
http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf

Data Center Interconnect
Дополнительная информация
http://www.cisco.com/go/dci
http://yves-louis.com/DCI/

Ждем ваших сообщений с хештегом
#CiscoConnectKZ
© 2015 Cisco and/or its affiliates. All rights reserved.
Спасибо
Пожалуйста, заполните анкеты.
Ваше мнение очень важно для нас.
Эльдар Женсыкбаев
Системный инженер-консультант
ezhensyk@cisco.com

Построение территориально распределенных ЦОД

Построение территориально распределенных ЦОД

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (18)

Ähnlich wie Построение территориально распределенных ЦОД

Ähnlich wie Построение территориально распределенных ЦОД (20)

Mehr von Cisco Russia

Mehr von Cisco Russia (20)

Построение территориально распределенных ЦОД