4. 4
ISC KEYNOTE: HPC AND AI
“Investments in computer systems — and I think the
bleeding-edge of AI, and deep learning specifically,
is shifting to HPC — can cut down the time to run an
experiment, and therefore go around the circle,
from a week to a day and sometimes even faster.”
— Andrew Ng, Baidu
“…deep learning and cognitively enabled applications
are driving large-scale high-performance computing
(HPC) projects that are heavier on GPUs. IDC expects
major advances and potential large build-outs…”
— IDC
6. 6
ВЛИЯЕТ НА НАШУ ЖИЗНЬ
Сводит родные души ломая
языковые барьеры
Указывает на предрасположенность
к заболеваниям чтобы их избежать
Позволяет незрячим видеть мир,
читать эмоции собеседников
7. 7
ДВИЖЕТ РАЗВИТИЕ ВСЕХ ОТРАСЛЕЙ
Видеоаналитика увеличивает
безопасность в ТЦ, аэропортах…
Интеллектуальные сервисы и в
отелях, банках, магазинах
На 90% снижает расход
химикатов в сельском хозяйстве
8. 8
72%
74%
84%
88%
93%
96%
2010 2011 2012 2013 2014 2015
МАССОВАЯ АДАПТАЦИЯ
БЛАГОДАРЯ СВЕРХЧЕЛОВЕСКИМ
РЕЗУЛЬТАТАМ
Глубокое
обучение
ImageNet — точность %
Облачные сервисы, использующие ИИ, на базе NVIDIA
Alibaba/Aliyun Amazon Baidu eBay Facebook
Flickr Google iFLYTEK iQIYI JD.com
Orange Periscope Pinterest Qihoo 360 Shazam
Skype Sogou Twitter Yahoo Supermarket Yandex YelpЗапрограммиро
ванные детекторы
Человек
74%
76%
10. 10
ДЛЯ DEEP LEARNING НУЖЕН ДРУГОЙ ЦOД
ОБУЧЕНИЕ
НЕЙРОСЕТИ
ПРИМЕНЕНИЕ
НЕЙРОСЕТИ
Данные и
пользователи
Масштабируемая
производительность
Эффективность
и пропускная
способность
Миллиарды TFLOPS на цикл обучения
Годы вычислений на Xeon CPU
GPU превращают годы в дни
Миллиарды TFLOPS для inference
Секунды на ответ с Xeon CPU
GPU для мгновенной реакции
11. 11
ПЛАТФОРМА NVIDIA ДЛЯ DEEP LEARNING
NVIDIA DEEP LEARNING SDK
РАЗРАБОТКА С DIGITS TensorRT
ОБУЧЕННАЯ
МОДЕЛЬ
НАБОР
ДАННЫХ
ДЛЯ
ОБУЧЕНИЯ
ОБУЧЕНИЕ
УПРАВЛЕНИЕ ДАННЫМИ
ОЦЕНКА МОДЕЛИ
EMBEDDED
AUTOMOTIVE
DATA CENTER
12. 12
0 50 100 150 200 250 300
P40
P4
1x CPU (14 cores)
Время исполнения inference (мс)
11 мс
6 мс
Пользовательский опыт: мгновенный ответ
Pascal + TensorRT в 45 раз быстрее
Интеллектуальные сервисы вроде распознавания голоса или перевода речи работают быстрее.
Эффективный inference на изображениях, видео и др. данных в production ЦОД.
Based on VGG-19 from IntelCaffe Github: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19
CPU: IntelCaffe, batch size = 4, Intel E5-2690v4, using Intel MKL 2017 | GPU: Caffe, batch size = 4, using TensorRT internal version
NVIDIA TensorRT
Высокопроизводительный фреймворк для Inference
260 мс
13. 13
40x Efficient vs CPU, 8x Efficient vs FPGA
0
50
100
150
200
AlexNet
CPU FPGA 1x M4 (FP32) 1x P4 (INT8)
Images/Sec/Watt
Максимальная эффективность для
масштабируемых серверов
P4
# of CUDA Cores 2560
Peak Single Precision 5.5 TeraFLOPS
Peak INT8 22 TOPS
Low Precision
4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engine
GDDR5 Memory 8 GB @ 192 GB/s
Power 50W & 75 W
AlexNet, batch size = 128, CPU: Intel E5-2690v4 using Intel MKL 2017, FPGA is Arria10-115
1x M4/P4 in node, P4 board power at 56W, P4 GPU power at 36W, M4 board power at 57W, M4 GPU power at 39W, Perf/W chart using GPU power
TESLA P4
14. 14
TESLA P40
P40
# of CUDA Cores 3840
Peak Single Precision 12 TeraFLOPS
Peak INT8 47 TOPS
Low Precision
4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engines
GDDR5 Memory 24 GB @ 346 GB/s
Power 250W
0
20 000
40 000
60 000
80 000
100 000
GoogLeNet AlexNet
8x M40 (FP32) 8x P40 (INT8)
Images/Sec
4x Boost in Less than One Year
GoogLeNet, AlexNet, batch size = 128, CPU: Dual Socket Intel E5-2697v4
Максимальная пропускная способность для
масштабируемых серверов
15. 15
P40/P4: INFERENCE-ИНСТРУКЦИИ “INT8”
• Операция Integer 8-bit Dot Product with 32-bit accumulate
• Поддерживаются только на P40/P4
A0A1A2A3
B0B1B2B3
A0 * B0
A1 * B1
A2 * B2
A3 * B3
4x INT8
4x INT8
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32C
INT32
ПРОДУКТ ТОЧНОСТЬ INFERENCE TOPS*
M4 FP32 2.2
M40 FP32 7
P100 FP16 21.2
P4 INT8 22
P40 INT8 47
*TOPS = Tera-Operations per second, base on boost clocks
16. 17
Jetson TX1
JETSON TX1
GPU 1 TFLOP/s 256-core Maxwell
CPU 64-bit ARM A57 CPUs
Memory 4 GB LPDDR4 | 25.6 GB/s
Video decode 4K 60Hz
Video encode 4K 30Hz
CSI Up to 6 cameras | 1400 Mpix/s
Display 2x DSI, 1x eDP 1.4, 1x DP 1.2/HDMI
Wifi 802.11 2x2 ac
Networking 1 Gigabit Ethernet
PCIE Gen 2 1x1 + 1x4
Storage 16 GB eMMC, SDIO, SATA
Other 3x UART, 3x SPI, 4x I2C, 4x I2S, GPIOs
21. 22
Производительность здесь и
сейчас — plug-and-play,
поддержка всех фреймворков
глубокого обучения
Оптимизация всех компонетов
решения для максимальной
производителности
Постоянные обновления из
облака
Поддержка нескольких,
одновременно работающих
фреймворков, благодаря
контейнеризации
Доступ к экспертам NVIDIA
ПРОГРАММНЫЙ СТЕК DGX
Полностью интегрированная платформа для глубокого обучения
22. 23
ПЛАТФОРМА TESLA ДЛЯ DEEP LEARNING
ОБУЧЕНИЕ INFERENCE
Система для обучения DIGITS
Deep Learning фреймворки
Tesla P100
DGX-1
DeepStream SDK
TensorRT
Tesla P40 & Tesla P4