Инструментарий Nvidia для deep learning

Антон Джораев, adzhoraev@nvidia.com
РЕШЕНИЯ NVIDIA ДЛЯ
DEEP LEARNING

2
Искусственный интеллектКомпьютерная графикаВычисления на GPU
NVIDIA
“THE AI COMPUTING COMPANY”

3
GPU NVIDIA В
МОЩНЕЙШИХ
СУПЕРКОМПЬЮТЕРАХ
МИРА РАБОТАЮТ НА
РАЗВИТИЕ НАУКИ И
ИСКУССТВЕННОГО
ИНТЕЛЛЕКТА

4
ISC KEYNOTE: HPC AND AI
“Investments in computer systems — and I think the
bleeding-edge of AI, and deep learning specifically,
is shifting to HPC — can cut down the time to run an
experiment, and therefore go around the circle,
from a week to a day and sometimes even faster.”
— Andrew Ng, Baidu
“…deep learning and cognitively enabled applications
are driving large-scale high-performance computing
(HPC) projects that are heavier on GPUs. IDC expects
major advances and potential large build-outs…”
— IDC

5
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОВСЮДУ
“где я припарковал
машину?”
“найти сумку которую я
только что видел в журнале”
“какой следующий фильм мне
посмотреть?”

6
ВЛИЯЕТ НА НАШУ ЖИЗНЬ
Сводит родные души ломая
языковые барьеры
Указывает на предрасположенность
к заболеваниям чтобы их избежать
Позволяет незрячим видеть мир,
читать эмоции собеседников

7
ДВИЖЕТ РАЗВИТИЕ ВСЕХ ОТРАСЛЕЙ
Видеоаналитика увеличивает
безопасность в ТЦ, аэропортах…
Интеллектуальные сервисы и в
отелях, банках, магазинах
На 90% снижает расход
химикатов в сельском хозяйстве

8
72%
74%
84%
88%
93%
96%
2010 2011 2012 2013 2014 2015
МАССОВАЯ АДАПТАЦИЯ
БЛАГОДАРЯ СВЕРХЧЕЛОВЕСКИМ
РЕЗУЛЬТАТАМ
Глубокое
обучение
ImageNet — точность %
Облачные сервисы, использующие ИИ, на базе NVIDIA
Alibaba/Aliyun Amazon Baidu eBay Facebook
Flickr Google iFLYTEK iQIYI JD.com
Orange Periscope Pinterest Qihoo 360 Shazam
Skype Sogou Twitter Yahoo Supermarket Yandex YelpЗапрограммиро
ванные детекторы
Человек
74%
76%

9
РАСПОЗНАВАНИЕ ДОРОЖНЫХ ЗНАКОВ
Человек способен распознать  98.81%
Глубокая нейронная сеть  99.17%
The German Traffic Sign Recognition Benchmark

10
ДЛЯ DEEP LEARNING НУЖЕН ДРУГОЙ ЦOД
ОБУЧЕНИЕ
НЕЙРОСЕТИ
ПРИМЕНЕНИЕ
НЕЙРОСЕТИ
Данные и
пользователи
Масштабируемая
производительность
Эффективность
и пропускная
способность
Миллиарды TFLOPS на цикл обучения
Годы вычислений на Xeon CPU
GPU превращают годы в дни
Миллиарды TFLOPS для inference
Секунды на ответ с Xeon CPU
GPU для мгновенной реакции

11
ПЛАТФОРМА NVIDIA ДЛЯ DEEP LEARNING
NVIDIA DEEP LEARNING SDK
РАЗРАБОТКА С DIGITS TensorRT
ОБУЧЕННАЯ
МОДЕЛЬ
НАБОР
ДАННЫХ
ДЛЯ
ОБУЧЕНИЯ
ОБУЧЕНИЕ
УПРАВЛЕНИЕ ДАННЫМИ
ОЦЕНКА МОДЕЛИ
EMBEDDED
AUTOMOTIVE
DATA CENTER

12
0 50 100 150 200 250 300
P40
P4
1x CPU (14 cores)
Время исполнения inference (мс)
11 мс
6 мс
Пользовательский опыт: мгновенный ответ
Pascal + TensorRT в 45 раз быстрее
Интеллектуальные сервисы вроде распознавания голоса или перевода речи работают быстрее.
Эффективный inference на изображениях, видео и др. данных в production ЦОД.
Based on VGG-19 from IntelCaffe Github: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19
CPU: IntelCaffe, batch size = 4, Intel E5-2690v4, using Intel MKL 2017 | GPU: Caffe, batch size = 4, using TensorRT internal version
NVIDIA TensorRT
Высокопроизводительный фреймворк для Inference
260 мс

13
40x Efficient vs CPU, 8x Efficient vs FPGA
0
50
100
150
200
AlexNet
CPU FPGA 1x M4 (FP32) 1x P4 (INT8)
Images/Sec/Watt
Максимальная эффективность для
масштабируемых серверов
P4
# of CUDA Cores 2560
Peak Single Precision 5.5 TeraFLOPS
Peak INT8 22 TOPS
Low Precision
4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engine
GDDR5 Memory 8 GB @ 192 GB/s
Power 50W & 75 W
AlexNet, batch size = 128, CPU: Intel E5-2690v4 using Intel MKL 2017, FPGA is Arria10-115
1x M4/P4 in node, P4 board power at 56W, P4 GPU power at 36W, M4 board power at 57W, M4 GPU power at 39W, Perf/W chart using GPU power
TESLA P4

14
TESLA P40
P40
# of CUDA Cores 3840
Peak Single Precision 12 TeraFLOPS
Peak INT8 47 TOPS
Low Precision
4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engines
GDDR5 Memory 24 GB @ 346 GB/s
Power 250W
0
20 000
40 000
60 000
80 000
100 000
GoogLeNet AlexNet
8x M40 (FP32) 8x P40 (INT8)
Images/Sec
4x Boost in Less than One Year
GoogLeNet, AlexNet, batch size = 128, CPU: Dual Socket Intel E5-2697v4
Максимальная пропускная способность для
масштабируемых серверов

15
P40/P4: INFERENCE-ИНСТРУКЦИИ “INT8”
• Операция Integer 8-bit Dot Product with 32-bit accumulate
• Поддерживаются только на P40/P4
A0A1A2A3
B0B1B2B3
A0 * B0
A1 * B1
A2 * B2
A3 * B3
4x INT8
4x INT8
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32C
INT32
ПРОДУКТ ТОЧНОСТЬ INFERENCE TOPS*
M4 FP32 2.2
M40 FP32 7
P100 FP16 21.2
P4 INT8 22
P40 INT8 47
*TOPS = Tera-Operations per second, base on boost clocks

17
Jetson TX1
JETSON TX1
GPU 1 TFLOP/s 256-core Maxwell
CPU 64-bit ARM A57 CPUs
Memory 4 GB LPDDR4 | 25.6 GB/s
Video decode 4K 60Hz
Video encode 4K 30Hz
CSI Up to 6 cameras | 1400 Mpix/s
Display 2x DSI, 1x eDP 1.4, 1x DP 1.2/HDMI
Wifi 802.11 2x2 ac
Networking 1 Gigabit Ethernet
PCIE Gen 2 1x1 + 1x4
Storage 16 GB eMMC, SDIO, SATA
Other 3x UART, 3x SPI, 4x I2C, 4x I2S, GPIOs

19
NVIDIA DEEPSTREAM SDK
Реализация видео-аналитики в масштабе
Inference
Preprocess
Hardware
Decode
“Boy playing soccer”
Простой, высокопроизводительный API для видео-аналитики
Decode H.264, HEVC, MPEG-2, MPEG-4, VP9
Исполняемый на CUDA resize and scale
TensorRT
0
20
40
60
80
100
1x Tesla P4 Server +
DeepStream SDK
13x E5-2650 v4 Servers
Количествопотоковвидео
Параллельная обработка видео-потоков
720p30 decode | IntelCaffe using dual socket E5-2650 v4 CPU servers, Intel MKL 2017
Based on GoogLeNet optimized by Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2

20
P100 ДЛЯ САМОГО БЫСТРОГО ОБУЧЕНИЯ
M40 MAXWELL P40 PASCAL P100 PASCAL
FP16 / FP32
(TFLOPs)
NA / 7 NA / 12 21.2 / 10.6
Register File 6 MB 7.5 MB 14 MB
Memory BW 288 GB/s 346 GB/s 732 GB/s
Chip-Chip BW 32 GB/s (PCIE) 32 GB/s (PCIE)
160 GB/s (NVLINK)
+ 32 GB/s (PCIE)
Mem Size
(Max DL model size)
24 GB 24 GB 16GB x 8
(Model Parallel)

22
Производительность здесь и
сейчас — plug-and-play,
поддержка всех фреймворков
глубокого обучения
Оптимизация всех компонетов
решения для максимальной
производителности
Постоянные обновления из
облака
Поддержка нескольких,
одновременно работающих
фреймворков, благодаря
контейнеризации
Доступ к экспертам NVIDIA
ПРОГРАММНЫЙ СТЕК DGX
Полностью интегрированная платформа для глубокого обучения

23
ПЛАТФОРМА TESLA ДЛЯ DEEP LEARNING
ОБУЧЕНИЕ INFERENCE
Система для обучения DIGITS
Deep Learning фреймворки
Tesla P100
DGX-1
DeepStream SDK
TensorRT
Tesla P40 & Tesla P4

24
ПОРТАЛ ДЛЯ РАЗРАБОТЧИКОВ
http://developer.nvidia.com
Место размещения всех инструментов, руководств и др.ресурсов

25
ЛЕКЦИЯ/МАСТЕР-КЛАСС ПО DL В МГУ И МФТИ
adzhoraev@nvidia.com
Антон Джораев
Напишите мне, я вышлю приглашение, участие свободное

Инструментарий Nvidia для deep learning

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Инструментарий Nvidia для deep learning

Ähnlich wie Инструментарий Nvidia для deep learning (20)

Mehr von Skolkovo Robotics Center

Mehr von Skolkovo Robotics Center (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

Инструментарий Nvidia для deep learning