DataScience Lab, 13 мая 2017
Высокопроизводительные вычислительные возможности для систем анализа данных
Михаил Федосеев ( Архитектор инфраструктурных решений, LanTec)
В докладе мы поговорим о hardware стороне систем анализа данных для случаев построения приватных облаков или локальных высокопроизводительных вычислительных кластеров. Рассмотрим какие технологии и комплексные решения от компании Hewlett Packard Enterprise позволяют ускорить процесс анализа данных. Это не только зарекомендовавшие в своей области лучшие в своем сегменте сервера линейки HPE Apollo, а так же высокоскоростные сетевые коммутаторы HPE, но и дополнительные вспомогательные элементы решения, такие как мощные графические карты NVIDIA и хост-процессоры Xeon Phi. Так же будет рассмотрен стек HPE Core HPC Software Stack, который позволяет администраторам контролировать использование ресурсов системы.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
2. Привет! Я, Михаил • В ИТ с 2002 года (15 лет)
• Работал системным
администратором
• Работал инженером по
технической поддержке продаж в
нескольких больших системных
интеграторах
• В настоящее время работаю
архитектором инфраструктурных
решений в компании Лантек
Мой моб. телефон: 067-448-00-04 Моя эл. почта: Mikhail.Fedoseev@lantec.ua
4. Продолжение лидерства на рынке и инноваций в
HPC и Big Data
9%
CAGR
7.4%
CAGR
HPC Standard Server
Market Share
Источник: IDC - HPC_WW IDCQView2Q20150915,
Earl Joseph and Bob Sorensen; Sept. 15th, 2015
Gartner Magic Quadrant for
Modular Servers
HPE – это лидер
Этот рисунок был опубликован Gartner, Inc. в рамках более
крупного исследовательского документа и должен быть оценен в
контексте всего документа. Документ Gartner доступен по запросу
HPE has strong market
leadership and momentum
in HPC
R&D Magazine 100
best IT Innovations
Award for 2014 –
Oscars of Innovation
recognizes the National
Renewable Energy
Laboratory (NREL) and
HPE’s Apollo System
The Machine
Новый вид компьютера
от HP Labs
“Это меняет все”
– Meg Whitman, CEO and President, HP
Амбициозный
исследовательский
проект, который
переосмысливает
фундаментальную
архитектуру
компьютеров, чтобы
обеспечить
качественный скачок в
производительности,
энергоэффективности
и безопасности.
Источник: Магический квадрант Gartner для модульных серверов
Апрель 2015 г.
33,3%
22,0%
13,8%
5,3%
4,2% 3,8% 3,0%
1,9%
0,8%
1HFY'15 Market Share
9. Apollo 8000
Supercomputing
Apollo 6000
HPC масштаба
стойки
Apollo 4000
Применимо к серверным
решениям. Построено для
обработки больших данных
Apollo 2000
Корпоративный мост к
масштабируемым
вычислениям
Нагрузки типа Big
DataHPC нагрузки
Intel Mellanox NVIDIA Seagate
ПлатформыРешения/ISVs
Платформы и решения HPE Apollo оптимизированные для HPC, IoT и
БОЛЬШИХ данных
Нагрузки следующего
поколения
Moonshot*
Converged Edge
вычислительные системы
сбора данных
Video
encoding
Mobile
workplace
IoT
* Брендинг в разработке
Нефть и газ Естественные
науки
Финансовые
услуги
Промышленны
е CAD/CAE
Academia Объектное
хранилище
Аналитика
данных
Scality
Cleversafe
Ceph
Hortonworks
Hadoop
Cloudera
Schlumberger
Paradigm
Halliburton
Gaussian
BIOVIA Redline
Synopsys
ANSYS Custom Apps
9
HPE Software (i.e. Vertica, HPE Haven), HPE Enterprise Services
10. Шасси HPE Moonshot 1500
Встроенные A & B
коммутаторы:
Блоки питания
Вид спереди
Сервера-картриджи с
горячей заменой
Вид сзади
A & B Switch Uplink
Modules
Chassis Management
Module
Внутри
1 Backplane
1 Midplane
M710x
M510
M700p
11.
12. HPE Apollo для каждого профиля инфраструктуры
От традиционных датацентров до
узкоспециализированных суперкомпьютеров:
12
Корпоративный мост
– Привычный форм-фактор
– Небольшие “Bite” размеры (1-
4 Nodes)
– Гибкая конфигурация
HPC сервера с воздушным
охлаждением
– Rack Scale эффективность
– Переднее обслуживание
– Purpose Built
Supercomputing с водяным
охлаждением
– Экстремальное
масштабирование ЦОД
– Максимальная плотность /
производительность
– Водяное охлаждение без
риска
Управление / Нагрузки / Процессоры / Ускорители
HPE Apollo 2000
HPE Apollo 6000
HPE Apollo 8000
13. HPE Apollo 2000 - корпоративный мост для гипермасштабной
инфраструктуры
Гибкая масштабируемая архитектура в традиционном форм-
факторе 2U Customize
Смешивайте и сопоставляйте разные
серверы для оптимизации рабочей
нагрузки
Оптимизированная плотность
2x 1U сервера – 4 сервера в 2U
Производительность
От приложений общего назначения к
HPC нагрузкам с ТОП CPU и
акселераторами
Обеспечение плотности, масштабирования и эффективности веб-масштаба для рабочих
нагрузок корпоративных данных и высокопроизводительных вычислений
Гибкость
Эффективность
Быстрота
Рабочая группа / Ведомство
14. HPE Apollo 2000 системные предложения
До 4 серверов в 2U, задняя кабельная
система и передняя система хранения с
горячей заменой
Apollo r2200
12 LFF
Apollo r2600
24 SFF
Apollo r2800
24 SFF w/ expander
HPE ProLiant XL170r HPE ProLiant XL190r
Вид спереди
Вид сзади
15. Гибкость хранения
Гибкость конфигурации накопителя Опции Storage контроллера
HPE Apollo r2600
− Hot-Pluggable 12 LFF SAS/SATA Hard
Drive/SSD
− 2.5” to 3.5” adapter option to support 12Gb
SAS SSD on LFF chassis
− Hot-Pluggable 24 SFF SAS/SATA Hard
Drive/SSD
− Сдвоенный SATA host based M.2 2242 NGFF
SSDs-internal
− Внутренний USB порт
HPE Apollo r2200
− Embedded SATA контроллер поддерживает до 6-ти
2,5” дисков или 3-х 3,5” дисков на ноду для non-
mission critical приложений или бездисковый
вариант
− Опциональный PCIe HBA с надежными
высокопроизводительными дисками SAS для
недорогого подключения без подключения к RAID
− Опциональный PCIe Smart Array Controller с
расширенными функциями массива, такими как
HP SmartCache и RAID 10 Advanced Data Mirroring,
что бы максимизировать время безотказной
работы
16.
17. HPEApollo6000–ДоведениеHPCкEnterprise
Оптимизированная
производительность
Rack Scale общая питание и управление
Специально разработанное решение HPC с rack scale эффективностью
Shared Power Infrastructure - Purpose Built
Разделяемый HPC
Низкая TCO для правильной
рабочей нагрузки
Различные серверные лотки и сети для
соответствия потребностям рабочей
нагрузки при одновременном
увеличении экономии
Rack scale эффективность
Полка внешнего питания и HP Advance
Power Manager помогают максимально
эффективно использовать энергию
Общая энергетическая инфраструктура - цель построения
Производительность
Эффективность
Низкая TCO
19. HPE Apollo a6000 шасси
Особенности
− Поддержка одного и двух слотов
− 10 однослотовых лотков
− 5 двухслотовых лотков
− Микширование слотов
− Общее охлаждение
− 12V DC распределение мощности
− Инфраструктура высотой 5U
− До 5700W на шасси
Удобство обслуживания
− Обслуживание спереди шасси
− Стандартное каблирование на
задней части шасси
− Обслуживание Hot Plag
винчестеров спереди шасси
− Дублированные Hot Plug
вентиляторы
5U (В) x 44.81cm (Ш) x 86.23cm (Г)
5U (В) x 17.64 in (Ш) x 33.95 in (Г)
20. iLO портHP APMПолка питания
Модуль управления
Простота обслуживания с шасси HP Apollo a6000
(2) Power Cages per chassis
Supports up to 4 x 12V DC cables
per chassis
(5) Вентиляторов
− Горячая замена
− 80mm с избыточностью
− Вентиляторы с
двойным ротором
Сетевые модули
ввода/вывода
Два 1GbE однопортовых модуля
Два FlexibleLOM riser: с
поддержкой 1GbE, 10GbE или IB
или
Инновационная зона НРЕ
21. Эффективное энергопотребление в сочетании с
HPE Apollo 6000 Power Shelf
1.5U
2.55”
17.64”
30.88”
Вид сзади
Вид спереди
1.5U (В) x 44.81cm (Ш) x 78.44cm (Г)
1.5U (В) x 17.64 in (Ш) x 30.88 in (Г)
− Внешняя объединенная полка питания
− Подходит до 6 источников питания
− 2400W или 2650W блоки питания
− До 15.9kW без резервирования
− Одно или трехфазный AC вход
− До двенадцати 12V DC кабелей
Эффективность
22. Эффективность энергопотребления в стойке с
инфраструктурой HPE Apollo 6000
Удобство обслуживания и эффективность
− Каждая полка питания может поддерживать
шасси от 3 до 6 (в зависимости от
конфигурации питания и резервирования)
− Поддержка N, N+1 и N+N избыточности
− Управление уровнем стойки с модулем HPE
APM (Выделенный или агрегированный iLO
для управления шасси, серверами или
уровнем мощности)
23.
24. HPEApollo8000-инновационнаясуперкомпьютерная система
сводянымохлаждением
Оптимизированная
эффективность
Максимальная плотность с
высокоэффективной системой охлаждения и
питания
Суперкомпьютерные
вычисления
4X teraflops/sq. ft. | 40% more FLOPS/watt | 3,800 tons of CO2
Эффективное использование
энергии
Рециркуляция энергии и нейтральное
воздействие стойки на центр обработки
данных, приводящий PUE всего за 1,06
Жидкое охлаждение с низким
риском
На 30% больше FLOPS / Вт и на 28% меньше
энергии, чем системы с воздушным
охлаждением
24
Мощность
Эффективность
Низкая TCO
25. Технологии HPE Apollo 8000
Серверы с сухим разъединением
− 100% Компоненты с водяным
охлаждением
− Предназначен для удобства
обслуживания
Подпольный комплект сантехники
Управление
инфраструктурой
− HPE iLO4, IPMI 2.0 и DCMI 1.0
− Продвинутый менеджер
питания на уровне стойки
Инфраструктура питания
− До 80kW на шкаф
− Четыре 30A 3-фазных 380-
480VAC
Интеллектуальный блок распределения
охлаждения
− Мощность 320 KW
− Встроенные элементы управления с актив-
активным переключением при сбое
Теплая вода
− Замкнутый вторичный
контур в CDU
− Изолированный и
открытый цикл объекта
Фальшпол
25
31. HPE Cloud-First FlexFabric Portfolio
Лучший в своей отрасли для центров обработки данных
Modular network OS with Intelligent Resilient Fabric
1/10/40GbE L2/L3 and converged switches
HPIMCmanagement
Spine switches
HP Comware
network OS
Leaf switches
10/40/100GbE switches
HPTechnologyServices
IMC
5900AF/CP59xx-32QSFP+ 59xx-2slot 59xx-4slot
7910 790412916E 12908E 12904E
32. HP FlexFabric коммутаторы доступа
Top-of Rack, Access
Converged
Infrastructure
FlexFabric
5700
FlexFabric
5900
FlexFabric
5900CP
FlexFabric
5930/5940
FlexFabric
5950
6125XLG/6127XLG
BCRM Trident+ Lite BRCM Trident+ BRCM Trident+ BRCM Trident2/Trident2+ BRCM Tomahawk BRCM Trident+/Trident2
1/10GbE ToR
Layer 2/Light Layer 3
with Data Center
features (DCB, FCoE,
TRILL)
1/10GbE ToR
Full Layer 3 with Data
Center Features (DCB,
FCoE, TRILL, SPB)
Converged ToR
Ethernet/FCoE/FC
(4&8 Gb/s)
10/40GbE ToR
Native VXLAN L2 & L3
Support
10G/25G/40G/100G
Native VXLAN L2
HP BladeSystem
Interconnect
Comware v7 based
Best in class TCO
Competes Against Cisco
Nexus 2K
High Performance
Competes against Cisco
Nexus 55xx
Converged Platform
Competes against Cisco
Nexus 5600
High Performance /
Overlay
Competes against Cisco
Nexus 93xxx
High Performance /
Overlay
Competes against Cisco
Nexus 3232C
Feature Rich
Competes against Cisco
3120x Blade Switch
Switching at the cost of a
multiplexer
Entire stack without
licensing, including MPLS
edge (SP/Telcos)
Convergence on every
port with IRF
Integration with
DCN/NSX and Helion as
L2 VXLAN GW
25G/100G in a Top of
Rack/Spine
Power of Comware v7
within the C7000
32
33. HPE Arista Networks: Data Center Portfolio
Spine/SplineTMLeaf
Volume Value
7300X Series 7500E/R Series
7150S & 7280E Series7050X & 7060X Series
Единый образ Arista EOS на всех платформах
34. HPE Arista Cross Portfolio Comparison
7010T 7150S 7050X
7250X
7300X
7x60X
7320X
7280E 7280R 7500E 7500R
Switch
Chip
Helix Alta Trident-II Trident-II Tomahawk Arad Jericho Arad Jericho
Density
48x 1G + 4 x
10G
64x 10G
48x10G +
4x40G
96x 10G +
8x40G
32 x 40G
64-256 40G
256–2048
10G
32 x 100G /
64 x 100G /
256 x 100G
72 x 10G
64x10 + 2
x100G
48x10G+6x1
00G
48x 100G
1152 x10G
288x 40G
96 x 100G
432 x 100G
1728 x 25G
Buffer 4MB 9.5MB 12MB 48 – 384MB
16MB –
256MB
9GB 4-32GB 72 – 144GB 96-288GB
MAC
Table
84K 64K 288K 288K 136K 256K 768K 256K 768K
IPv4 Hosts 84K 64K 288K 288K 104K 128K 768K 128K 768K
IPv4
Routes
16K 84K 144K 144K 128K 64K 1.2M 64K 1.2M
ECMP 64-Way 32-Way 64-Way 64-Way 128-Way 128-Way 128-Way 128-Way 128-Way
Min EOS 4.14.2 4.11.0 4.12.4 4.13.0 4.15.0FX 4.14.2 4.15.4FX 4.12.0 4.15.4FX
Release Sept 2014 Sept 2012 March 2013 Jan 2014 Sept 2015 Aug 2014 May 2016 Dec 2012 March 2016
36. Области использования графических
ускорителей
• Биоинформатика
• Вычислительные финансы
• Вычислительная гидрогазодинамика
• Вычислительная структурная механика
• Разведка и оборона
• Автоматизация проектирования
• Обработка изображений
• Медицинская визуализация
• Молекулярная динамика
• Вычислительная химия
• Сейсмические исследования, нефть, газ
• Погодное, атмосферическое, океаническое и космическое моделирование
37. Использование графических ускорителей в
бизнес-среде
Shazam (NVIDIA Tesla)-анализ и обработка аудиоинформации
Saleforce.com и Twitter (NVIDIA CUDA)-поиску, мониторингу и
анализу упоминаний о брендах, услугах и продуктах заказчиков в
«твитах»
Cortexica (NVIDIA Tesla)-применяются сложные алгоритмы для
распознавания изображений и выполняется поиск среди миллионов
товаров в режиме реального времени.
+
38.
39. NVLink Topology
Преимущества
• Все графические процессоры, обеспечивающие прямой доступ ко всем остальным
графическим процессорам, а также прямые операции передачи через NVLink при
высокой пропускной способности (20 Гбит/с)
• Высокая производительность для коллективной коммуникации
• Ширина полосы PCIe полностью доступна для обмена данными между узлами и / или
сетевыми адаптерами во время обмена данными между GPU
Особенности:
NVLink 1.0
Пропускная способность интерфейса используемого в GPU NVIDIA Pascal GP100 (2016 год):
20 Гбит/с на контакт
40 Гбайт/с на один порт
160 Гбайт/с (4 × 40 Гбайт/с) на один GPU
NVLink 2.0
Пропускная способность интерфейса используемого в GPU NVIDIA Volta (2017 год):
25 Гбит/с на контакт
50 Гбайт/с на один порт
200 Гбайт/с (4 × 50 Гбайт/с) на один GPU
39
40. Cопроцессор Intel Xeon Phi™ - специальный
ускоритель для научных расчетов
Xeon Phi™ - реализация архитектуры Intel MIC (Many Inegrated
Core), или "большое количество ядер в одной микросхеме"
Особенности и преимущества:
• использование стандартного исходного кода на языках C, C++
и FORTRAN
• хорошо распараллеливается - на уровне более 100
программных потоков
• расчеты, использующие векторные вычисления всегда более
быстры, которые критичны к полосе пропускания
«процессор-память»
*Для помощи в разработке программного обеспечния на платофрме Intel Xeon Phi существуют специальные программные пакеты - Intel®
Parallel Studio XE 2013 и Intel® Cluster Studio XE 2013, содержащие оптимизирующие компиляторы языков C, C++ и Fortran, а также
вспомогательные библиотеки и инструменты анализа и отладки
41. Xeon Phi™ процессоры
.
.
.
.
.
.
Фабрика
до 72 ядер
Процессорный пакет
Knights
Landing
Внутренняя память
– 16 GB MC-DRAM
– ~465 GB/s STREAM
Дифференцированная производительность
– На 60% больше плотности ядер на каждый серверный узел,
>3 TFlops на сокет
Идеальное решение для высокопараллельных
приложений
– Масштабируется до >60 ядер на ноду
– Highly vectorized or memory bandwidth bound
– Загрузочный процессор, выполняющий рабочие нагрузки
x86
Встроенная 16 GB MC-DRAM память
– Встроенная память обеспечивает пропускную способность
>5x на процессор по сравнению с DDR4 от Intel® Xeon v4
Встроенная OPA фабрика (7200-F series)
- Двухпортовая (50 GB/s)
- Повышает плотность и показатель цена-качество
Полосы пропускания PCI-E с поддержкой OPA
ограничены для CPU
– 36 линий Gen 3 для non-OPA процессоров
– 4 линии Gen 3 для OPA процессоров