3. High Performance Computing (HPC)
High Performance Computing кластер состоит из набора
соединенных между собой компьютерных систем, которые
работают сообща, таким образом можно считать, что это
единая система.
3
4. Требования к НРС
Задержка
Емкость
Надежность
•
Системная задержка
•
Общая
производительность
системы для
обработки трафика
сейчас и в будущем
•
Отказоустойчивость
системы для
максимизации время
работы
•
Примеры:
•
Примеры:
•
Примеры:
o
End-to-end задержка 10
GbE 2.3 микросекунд
Порты 10/40/100 GbE
без переподписки
o
Емкость
коммутационной
фабрики (в Tbps) для
обработки трафика
Большая пропускная
способность на слот
для будущего роста
o
Избыточные модули
для
управления, коммутац
ии и питания
Компоненты с горячей
заменой
Бесшовная
отказоустойчивость и
обновления ПО
o
4
o
o
o
5. Вызов №1. Что такое задержка?
• Задержка = P + N + S + I + AP
-
P = Время передачи – отправка битов по проводу
N = Обработка пакета сетевым железом – коммутация, маршрутизация
S = Время сериализации – отправка битов «в провод»
I = Время обработки прерывания – прием пакета на сервере
AP = Время обработки сообщения приложением
• Обмен данными между двумя системами:
- ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2
• Категоризация задержки:
- Расстояние: Р
- Инфраструктура: I, N, S
- Приложение: АР
5
6. Вызов №1. Как победить задержку?
Анализ
Сервер №2
Сервер №1
User space
Программа
AP1
Программа
UDP пакеты
отбрасываются
здесь, когда
память ограничена
Программа
Программа
AP2
Kernel Context
switch Socket
buffer TCP/IP stack
NIC buffers
I1
Обмен данными между двумя системами:
S1
S2
ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2
N1
6
I2
P
N2
7. Вызов №1. Как победить задержку?
Классификация
Сервер №2
Сервер №1
User space
Программа
AP1
Программа
Программа
Программа
AP2
Kernel Context
switch Socket
buffer TCP/IP stack
NIC buffers
I1
S1
S2
РАССТОЯНИЕ
N1
7
I2
P
N2
8. Вызов №1. Как победить задержку?
Методы
• 1000 байт на скорости 1Гб/с
-
1000км = 10.1мс
100км = 1.2мс
10км = 303μс
1км = 213μс
0км = 203μс
• Задержка при отправке 500 байтового пакета. Добавляется
каждым коммутатором.
-
10Мб/с = 566μс
100Мб/с = 56μс
1Гб/с = 5.7μс
10Гб/с = 0.57μс
-
Правильный выбор провайдера оптической связи
Выбор более скоростного интерфейса для быстрой сериализации
Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3)
Оптимальный выбор сетевого оборудования (cut-through коммутаторы)
Создать план для обработки microbursts
Управлять DROP и DISCARD, чтобы уменьшить JITTER
• Общая лучшая практика
8
9. Вызов №1. Как победить задержку?
Выбор пути.
Значительные различия в
задержках у различных
операторов
- Зависит от маршрута
- Кол-во сетевых НОР
- Наличие необходимой пропускной
способности
Технология, используемая
операторами связи сильно
отличается по показателям
задержки, особенно во время
пика трафика
- DWDM предпочтительней MPLS
Путь
Расстояние
Задержка
Москва-Киев
850км
4,25мс
Москва-Киев
999км
4,99мс
9
- Рассмотреть использование
высокоскоростной WAN технологии,
например растянутые VLAN
10. Вызов №1. Как победить задержку?
Топология
Топологические нюансы
o Растянутый VLAN = WAN
коммутация на уровне 2
ЦОД №3
o Создает единую сеть
o Может использоваться для
геокластеризации и удобства
получения multicast трафика
o Одни коммутаторы лучше других.
Все зависит от качества
исполнения Spanning Tree
o Использовать traffic shaping на
управления microbursts
o Использовать одни и те же
физические каналы для
маршрутизируемых VLAN
10
ЦОД №1
ЦОД №2
13. Вызов №1. Как победить задержку?
Железо
Общая практика
Не использовать гипервизор. Никогда
Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows
Использовать самые быстрые процессоры
ОС заточены по умолчанию на пропускную. Перенастроить для минимализации задержки
Перенастроить TCP/IP стек или обходить его – TCP offload / bypass
Никогда не запускать Х сервер
Выключить iptables, ip6tables, yumtables, sendmail, Bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs
Диск I/O
Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметичное
Можно смотреть в сторону OCFS32, HSF2, BTRFS
LINUX runlevel
По умолчанию установить RUN LEVEL 3
Тонировать QoS / Scheduling
Тонировать сетевой стек
Тонировать уровень приложений
13
14. Вызов №1. Как победить задержку?
NIC
Kernel TCP/IP
User space TCP/IP
Bypass TCP/IP
1G Linux 48μS RTT
OpenOnLoad
10μS RTT
OFED
2μS RTT
10G Linux 16μS RTT
Общие правила для тонировки NIC
o
o
Проанализируйте сетевой стек
o
Тонировать NIC драйвер
o
Тонировать TCP/IP стек
o
14
Будьте избирательны в выборе NIC. Есть большая разница в
характеристиках задержки и DROP, которые зависят от железа и
драйвера.
Обмен – уменьшая latency, Вы грузите CPU
15. Требования к НРС
Задержка
Емкость
Надежность
•
Системная задержка
•
Общая
производительность
системы для
обработки трафика
сейчас и в будущем
•
Отказоустойчивость
системы для
максимизации время
работы
•
Примеры:
•
Примеры:
•
Примеры:
o
End-to-end задержка 10
GbE 2.3 микросекунд
Порты 10/40/100 GbE
без переподписки
o
Емкость
коммутационной
фабрики (в Tbps) для
обработки трафика
Большая пропускная
способность на слот
для будущего роста
o
Избыточные модули
для
управления, коммутац
ии и питания
Компоненты с горячей
заменой
Бесшовная
отказоустойчивость и
обновления ПО
o
15
o
o
o
18. Требования к НРС
Задержка
Емкость
Надежность
•
Системная задержка
•
Общая
производительность
системы для
обработки трафика
сейчас и в будущем
•
Отказоустойчивость
системы для
максимизации время
работы
•
Примеры:
•
Примеры:
•
Примеры:
o
End-to-end задержка 10
GbE 2.3 микросекунд
Порты 10/40/100 GbE
без переподписки
o
Емкость
коммутационной
фабрики (в Tbps) для
обработки трафика
Большая пропускная
способность на слот
для будущего роста
o
Избыточные модули
для
управления, коммутац
ии и питания
Компоненты с горячей
заменой
Бесшовная
отказоустойчивость и
обновления ПО
o
18
o
o
o
19. Вызов №3. Надежность.
Аппаратная надежность.
Возможность горячей замены любого из
компонентов
Питание
o
Отказоустойчивость по схеме N+1 или N+N
Охлаждение
o
Отказоустойчивость по схеме N+1 или N+N
Коммутация
o
Отказоустойчивость фабрик модулей по схеме N+1
Управление
o
19
Отказоустойчивость управляющих модулей по схеме N+1
26. Summit X770-32q Switch Hardware
USB
Port
Stack
Member
Number
OOB Management
Ethernet
Console
Port
2 x mini BNC connectors (75Ω)
1588 Output: 1PPS & 10MHz
26
32-port QSFP+ Ports of 40GbE
4+1 Fans
Front-to-Back or Back-toFront (always ships with 5)
Redundant AC/DC Power Supplies
(always ships with 2 PSUs)
32. Пример
НРС для нефтяной компании
o
o
o
-
32
HPC cluster is based on three main components:
Cluster servers with 10G NICs. Vendors – HP, IBM & DELL
High performance storage with 10G & 40G. Vendors DDN & Panasas
Networks switches with 10G & 40G. Vendors – Extreme Networks
Requirements for platforms
Storage must support both Infiniband for legacy connectivity and Ethernet
Server platform Intel/Linux & 7200TB storage
10G/40G Ethernet
Purpose of HPC
Must support a connectivity of large storage subsystems
To be used for seismic data processing
33. Пример. Топология
Extreme Networks
HP Cluster Servers
DDN Storage Servers
BLACK DIAMOND X8
10G
40G
228 ports
128 ports
10G
16 ports
LAN
3rd party network vendor
33
34. Пример
НРС для нефтяной компании
• Почему Ethernet
Компании запросили решение на Ethernet потому что:
a. Ethernet может передавать 40G, но IB может 40G и 56G
b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX
c. Ethernet дешевле в поддержке. Низкий OPEX
d. У Ethernet есть 100G
e. За Ethernet стоят тяжеловесные производители сетевого
оборудования
34