обзор средств разработки для вычислений Gpgpu

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Пролог Мотивация История CUDA OpenCL OpenACC Реализация Гауссова сглаживания на CUDA
Обзор средств разработки для
вычислений на GPGPU
Артур Молчанов
2016

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
О чем пойдет речь?
GPGPU General Purpose Graphics Processing Unit
GPGPU General-purpose computing for graphics
processing unit
Общее в определениях — в вычислениях общего
назначения участвует графический процессор.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Зачем?
Вычислительная мощность GPU в разы выше мощности
CPU с сопоставимой ценой и потребляемой энергией.
Таблица 1: Сравнение CPU и GPU
Устройство
GFLOPS Мощ-
ность
(макс.),
Вт
Цена,
$
64
bit
32
bit
i7-5960X (8 cores@3GHz) 384 768 140 1100
GeForce GTX Titan Black 1707 5121 250 999
GeForce GTX Titan X 192 6144 250 999
Radeon R9 Fury X 537 8602 275 649

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Зачем?
Разрыв в скорости CPU и GPU в последнее время лишь
растет (знаменитые +5% у новых процессоров Intel)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Причины превосходства GPU
В CPU вычислительные блоки занимают меньшую часть
кристалла. Площадь кристалла CPU, как правило,
меньше площади GPU.
(a) i7-5960X (355
мм2, 2.6 млрд.
транзисторов)
(b) GM200 (601 мм2, 8 млрд.
транзисторов)
Рис. 1: Кристаллы CPU и GPU

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Причины превосходства GPU
CPU оптимизирован для выполнения однопоточных
приложений с малой задержкой:
• Большой кэш
• Длинный конвейер
• Сложные блоки предсказания ветвлений
Intel и GPGPU
Intel тоже хочет заработать на SIMD устройствах и
выпустила ряд решений на архитектуре MIC (Many
Integrated Core Architecture), который включает в себя и
относительно известный Xeon Phi, представляющий из
себя процессор имеющий до 61 x86 ядра с 16 GB GDDR5
и интерфейс PCI-e (только стоит это ∼$4000).

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Общее у CPU и GPU
CPU тоже является SIMD устройством — в нем
содержатся блоки, выполняющие за один такт
арифметические операции над 256-битными векторами,
что эквивалентно 16 операциям над 16-битными
числами.
Также CPU может выполнять несколько независимых
операций одновременно.
Рис. 2: Исполнительное устройство CPU Haswell

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
История развития видеокарт
2002-2003 гг. Выход видеокарт на чипах NV30 (NVIDIA
GeForce FX) и R300 (AMD (ATI) Radeon 9500). В
них была реализована программируемая
шейдерная архитектура второй версии,
точность вычислений значительно
повысилась, что заметно расширило область
применения.
2006 г. NVIDIA представила GeForce 8800 — первую
видеокарту с унифицированной шейдерной
архитектурой.
GeForce 8800 имел 128 унифицированных
потоковых процессоров, способных работать
с любыми данными в формате с плавающей
запятой.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
История развития средств разработки
2003 г. BrookGPU — компилятор, позволивший
абстрагироваться от графического API
(OpenGL, Direct3D)
2007 г. релиз публичной бета-версии CUDA SDK
2008 г. AMD официально предоставила доступ к
Stream для массовых пользователей
2009 г. релиз Mac OS X 10.6 с поддержкой OpenCL.
Релиз NVIDIA и ATI SDK с поддержкой OpenCL
2009 г. релиз DirectX 11, включающий DirectCompute
2012 г. релиз Visual Studio с поддержкой C++AMP
2012 г. релиз Android 4.2 с поддержкой ускорения
Renderscript на GPU
2015 г. релиз GCC 5.1 с поддержкой OpenACC

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CUDA
Задачи, выполняемые на GPU, представляют собой
функции со спецификатором __global__, называемые
kernel.
Синтаксис — расширенный C99/C++11.
1 __global__ void SumVectors(float const* a, float const* b, int
size, float* c)→
2 {
3 int const i = threadIdx.x + blockIdx.x * blockDim.x;
4
5 if (i >= size)
6 {
7 return;
8 }
9
10 c[i] = a[i] + b[i];
11 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Выполнение kernel
Вызов kernel аналогичен любой другой функции.
Отличие — в ”<<<...>>>” указывается конфигурация
потоков выполнения.
1 int main()
2 {
3 // ...
4 int const threadsPerBlock = 512;
5 int const blocksCount = (size - 1) / threadsPerBlock + 1;
6
7 dim3 const dimBlock(threadsPerBlock, 1, 1);
8 dim3 const dimGrid(blocksCount, 1, 1);
9
10 vecAdd<<<dimGrid, dimBlock>>>(deviceA, deviceB, size,
deviceC);→
11 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Модель выполнения I
Потоки
Выполнением kernel занимаются потоки.
Блоки
Потоки группируются в блоки.
Причина — не все потоки имеют общую быструю
разделяюмую память (shared memory) и могут
синхронизироваться, а лишь те, кто выполняется на
одном мультипроцессоре.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Модель выполнения II
Грид (grid)
Блоки объединяются в грид (grid),
Блоки и грид имеют 3 измерения.
Причина — чаще всего массив данных имеет до 3
измерений.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Модель выполнения III
Рис. 3: Модель выполнения CUDA

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Сборка
Для компиляции используется nvcc.
Код, выполняемый на CPU перенаправляется системному
компилятору (GCC, MS VC++).
nvcc генерирует PTX код и/или cubin.
PTX
”Ассемблер” для GPU. Во время запуска приложения
происходит трансляция в бинарный формат cubin,
подходящий GPU.
cubin
ELF-файл, содержащий код, для выполнения на GPU,

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Состав CUDA
Помимо Runtime и Driver API в состав CUDA входят
библиотеки:
cuBLAS реализация BLAS (Basic Linear Algebra
Subprograms)
cuFFT реализация библиотеки быстрого
преобразования Фурье
cuRand библиотека генерации случайных чисел
cuSPARSE библиотека линейной алгебры разреженных
матриц
NPP набор GPU-ускоренных функций для
обработки изображений, видео и сигналов
cuSOLVER набор решателей для плотных и
разреженных матриц
Thrust STL-подобные шаблонные интерфейсы для
некоторых алгоритмов и структур данных

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Системные требования I
Аппаратное обеспечение
Видеокарты NVIDIA начиная с G80 (GeForce 8800 GTX)
Спектр поддерживаемых возможностей (compute
capability) отличается для разных поколений
видеокарт.
ОС
• Windows
• Linux
• Mac OS X
Компиляторы
• Visual C++ 10.0 - Visual C++ 12.0
• GCC 4.3.4 - 4.9.2

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Системные требования II
IDE (плагин)
• Visual Studio 2010 - 2013
• Eclipse (поставляется в комплекте с SDK для Linux)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка I
• cuda-gdb — gdb с поддержкой отладки kernel
• cuda-memcheck — отладка ошибок доступа к памяти
• Eclipse
• Visual Studio
Выхлоп cuda-memcheck
1 ========= CUDA-MEMCHECK
2 [src/Denoise] - Starting...
3 ========= Invalid __global__ write of size 4
4 ========= at 0x00000628 in
kernels/Gaussian.cu:77:GaussianGpuKernel(float const *,
float const *, int, int, float*)
→
→
5 ========= by thread (15,3,0) in block (49,0,0)
6 ========= Address 0x0100063c is out of bounds
7 ========= Saved host backtrace up to driver entry point at
kernel launch time→
8 ========= Host Frame:/usr/lib64/libcuda.so.1 (cuLaunchKernel
+ 0x2cd) [0x15865d]→

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка II
9 ========= Host Frame:src/Denoise [0x25bf1]
10 ========= Host Frame:src/Denoise [0x40403]
11 ========= Host Frame:src/Denoise
(_Z17GaussianGpuKernelPKfS0_iiPf + 0xb0) [0x109a0]→
(_Z12GaussianGpu0RKSt6vectorIS_IfSaIfEESaIS1_EEPKfiiRS3_ +
0x311) [0x10d71]
→
→
13 ========= Host Frame:src/Denoise (main + 0x4cd) [0x988d]
14 ========= Host Frame:/lib64/libc.so.6 (__libc_start_main +
0xf5) [0x21b05]→
15 ========= Host Frame:src/Denoise [0x9d1f]
16 CUDA error at kernels/Gaussian.cu:176
code=4(cudaErrorLaunchFailure) "cudaDeviceSynchronize()"→
17 ========= Program hit cudaErrorLaunchFailure (error 4) due to
"unspecified launch failure" on CUDA API call to
cudaDeviceSynchronize.
→
→
18 ========= Saved host backtrace up to driver entry point at
error→
19 ========= Host Frame:/usr/lib64/libcuda.so.1 [0x2f31b3]
20 ========= Host Frame:src/Denoise [0x443f6]
(_Z12GaussianGpu0RKSt6vectorIS_IfSaIfEESaIS1_EEPKfiiRS3_ +
0x1f1) [0x10c51]
→
→

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка III
22 ========= Host Frame:src/Denoise (main + 0x4cd) [0x988d]
23 ========= Host Frame:/lib64/libc.so.6 (__libc_start_main +
0xf5) [0x21b05]→
24 ========= Host Frame:src/Denoise [0x9d1f]
25 =========
26 ========= ERROR SUMMARY: 33 errors

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка IV
Рис. 4: Отладка CUDA в Eclipse

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Профилирование I
• nvprof
• NVIDIA Visual Proﬁler (как отдельное приложение, так
и часть плагинов для Visual Studio и Eclipse)
Рис. 5: Профилирование CUDA в Eclipse

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Продукты использующие CUDA I
• библиотеки
cuDNN библиотека с поддержкой GPU
примитивов для глубинных нейронных
сетей
ArrayFire библиотека C/C++/Java/Fortran,
содержащая сотни функций
используемых в арифметике, линейная
алгебре, статистике, обработке сигналов,
обработке изображений и связанных с
ними алгоритмов
OpenCV библиотека для машинного зрения,
обработки изображений и машинного
обучения
NVBIO C++ фреймворк для анализа
генетических последовательностей
HiPLAR пакеты для R, позволяющие ускорить
функции линейной алгебры

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Продукты использующие CUDA II
FFmpeg набор мультимедиа библиотек, которые
позволяют записывать, конвертировать и
передавать цифровые аудио- и
видеозаписи в различных форматах
NVIDIA Video Codec SDK библиотеки для аппаратного
кодирования/декодирования H.264 и
H.265
и множество других

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
OpenCL
Фреймворк для написания параллельных приложений
без привязки к производителю.
OpenCL разрабатывается и поддерживается
некоммерческим консорциумом Khronos Group. В его
состав входит и NVIDIA. Этим объясняется схожесть с
CUDA.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отличия от CUDA I
• Широкий спектр поддерживаемых устройств
CPU Intel, AMD, IBM Power, Qualcomm
Snapdragon
GPU NVIDIA, AMD, Intel, Mali, Qualcomm Adreno
FPGA Altera, Xilinx
DSP TI AM57x, TI 66AK2H SoC
Intel MIC Xeon Phi
• Отсутствие необходимости в специальном
компиляторе

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отличия от CUDA II
Таблица 2: Эквиваленты CUDA и OpenCL
OpenCL CUDA
host host
device device
kernel kernel
host program host program
NDRange (index space) grid
work item thread
work group block

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kernel
Задачи, выполняемые на GPU, представляют собой
функции со спецификатором __kernel, называемые
kernel.
Синтаксис — расширенный C99/C++14 (начиная с версии
2.1).
1 __kernel void SumVectors(__global float const* a, __global float
const* b, int size, __global float* c)→
2 {
3 int const i = get_global_id(0);
4
5 if (i >= size)
6 {
7 return;
8 }
9
10 c[i] = a[i] + b[i];
11 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Выполнение kernel I
В отличие от CUDA, исходный код OpenCL компилируется
во время выполнения, т.к. используются стандартные
компиляторы.
1 int main()
2 {
3 // ...
4 char const* sumVectorsSrc =
5 "__kernel void SumVectors(__global float const* a, __global
float const* b, int size, __global float* c)"→
6 "{"
7 " int const i = get_global_id(0);"
8 ""
9 "if (i >= size)"
10 "{"
11 " return;"
12 "}"
13 ""
14 "c[i] = a[i] + b[i];"
15 "}";

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Выполнение kernel II
16
17 std::string const clCompileFlags = "-cl-mad-enable";
18
19 cl_program sumProgram = clCreateProgramWithSource(clContext,
1, &sumVectorsSrc, NULL, &clError);→
20 CL_CHECK_ERROR(clBuildProgram(sumProgram, 0, NULL,
clCompileFlags.c_str(), NULL, NULL));→
21 cl_kernel const sumKernel = clCreateKernel(sumProgram,
"SumVectors", &clError);→
После компиляции мы получили kernel — sumKernel.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Выполнение kernel III
Теперь необходимо задать значения аргументов kernel.
22 // ...
23 CL_CHECK_ERROR(clSetKernelArg(sumKernel, 0, sizeof(deviceA),
(void *) &deviceA));→
24 CL_CHECK_ERROR(clSetKernelArg(sumKernel, 1, sizeof(deviceB),
(void *) &deviceB));→
25 CL_CHECK_ERROR(clSetKernelArg(sumKernel, 2, sizeof(size),
&size));→
26 CL_CHECK_ERROR(clSetKernelArg(sumKernel, 3, sizeof(deviceC),
(void *) &deviceC));→
27 // ...
Теперь необходимо задать конфигурацию потоков и
запустить kernel.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Выполнение kernel IV
27 // ...
28 cl_event event = NULL;
29
30 size_t const localSize = 512;
31 size_t const globalSize = localSize * ((size - 1) / localSize +
1);→
32
33 CL_CHECK_ERROR(
34 clEnqueueNDRangeKernel(clCommandQueue, sumVectorsKernel, 1, NULL,
&globalSize, &localSize, 0, NULL, &event));→
35 CL_CHECK_ERROR(clWaitForEvents(1, &event));
Voilà!
Мы наконец-то запустили программу.
Такие сложности обусловлены универсальностью
OpenCL — за все приходится платить.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Сборка
Т.к. нет привязки к компилятору, то достаточно лишь
иметь заголовочные файлы и библиотеку OpenCL.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Системные требования
OpenCL не накладывает никаких ограничений. Задача
производителя оборудования обеспечить поддержку
OpenCL.
Удобство программирования и отладки зависит от IDE.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка
• GDB >= 7.3
• Intel OpenCL debugger для Visual Studio (только CPU)
• AMD CodeXL
• IBM OpenCL SDK

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Профилирование
• NVIDIA Visual Proﬁler
• Intel System Analyzer и Platform Analyzer из OpenCL
SDK
• Intel VTune Ampliﬁer
• AMD CodeXL

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Продукты использующие OpenCL I
• библиотеки
ArrayFire библиотека C/C++/Java/Fortran,
содержащая сотни функций
используемых в арифметике, линейная
алгебре, статистике, обработке сигналов,
обработке изображений и связанных с
ними алгоритмов
Bolt STL-подобная библиотека, использующая
OpenCL или C++AMP для ускорения
алгоритмов
Boost.Compute STL-подобная библиотека,
использующая OpenCL и CUDA
clMath реализации FFT и BLAS
MainConcept SDK библиотеки для аппаратного
кодирования/декодирования H.264, H.265
и MPEG-2
и множество других

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
OpenACC I
OpenACC (Open Accelerators) — программный стандарт
для параллельного программирования.
Как и в OpenMP для указания участков кода,
выполняющихся параллельно, используются директивы
компилятора.
Отличие — код может выполняться как на CPU так и на
GPU.
1 void SumVectors(float const * a, float const * b, int size, float
* restrict c) {→
2 #pragma acc kernels copyin(a[0:size],b[0:size]),
copyout(c[0:size])→
3 for (int i = 0; i < size; ++i)
4 {
5 c[i] = a[i] + b[i];
6 }
7 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
OpenACC II
#pragma acc kernels нижележащий блок кода будет
скомпилирован в kernel
copyin(a[0:size],b[0:size]) данные из массивов a и b
будут скопированы из локальной памяти в
память девайса
[0:size] диапазон индекса массива для
копирования
copyout(c[0:size])) данные из массива с будут
скопированы из памяти девайса в локальную
память

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Сборка
Для компиляции требуется лишь компилятор,
поддерживающий OpenACC.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Системные требования I
OpenACC не налагает никаких ограничений на
программное или аппаратное обеспечение.
Дело за разработчиками компиляторов.
Аппаратное обеспечение
• видеокарты NVIDIA Tesla с compute capability 2.0 и
выше
• видеокарты AMD Radeon HD Graphics 7x00
• AMD APU с AMD Radeon HD Graphics R7
• CPU
• Xeon Phi

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Системные требования II
ОС
• Windows
• Linux
• Mac OS X
Компиляторы
• PGI Accelerator Compilers
• Cray compiler
• GCC 5.1
• NVIDIA OpenACC Toolkit (основан на компиляторе PGI)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Отладка
• GDB
• cuda-gdb (для NVIDIA)
• TotalView OpenACC debugger

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Профилирование
• запуск приложения, собранного компилятором PGI, с
переменной окружения PGI_ACC_TIME=1
• NVIDIA Visual Proﬁler

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Что осталось за кадром
Кроме низкоуровневых API таких как OpenCL и CUDA
существуют и вспомогательные библиотеки,
предоставляющие алгоритмы и структуры данных,
способных использовать ресурсы GPU.
C++AMP Обертка над DirectCompute. Есть ”из
коробки” в Visual Studio с версии 2012
Thrust Входит в состав CUDA
Bolt Поддерживает OpenCL и C++AMP
Boost.Compute использует OpenCL
ArrayFire CUDA, OpenCL

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Реализация Гауссова сглаживания на CUDA
Гауссово сглаживание заключается в суммировании
значения цветовых каналов соседних пикселей с
коэффициентами равными значению функции Гаусса.
0.195
0.078 0.078
0.0780.078
0.123
0.123
0.123
0.123
Рис. 6: Коэффициенты Гаусcова сглаживания

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Входной файл и железо I
В качестве входного файла использовалась
фотогорафия 24 МП (6016x4000).
Видеокарта — GeForce GTX 980 Ti
CPU — i7-5960X

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Простейшее ядро I
1 __global__ void GaussianGpuKernel(float const *src, float const *
mask, int width, int height, float *dst)→
2 {
3 int const xInImage = threadIdx.x + blockDim.x * blockIdx.x;
4 int const yInImage = threadIdx.y + blockDim.y * blockIdx.y;
5
6 if (xInImage > width - 1 || yInImage > height - 1)
7 {
8 return;
9 }
10
11 float sum = 0;
12
13 for (int yInMask = -MASK_RADIUS; yInMask <= MASK_RADIUS;
++yInMask)→
14 {
15 for (int xInMask = -MASK_RADIUS; xInMask <= MASK_RADIUS;
++xInMask)→
16 {
17 int const pixelToSumX = xInImage + xInMask;

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Простейшее ядро II
18 int const pixelToSumY = yInImage + yInMask;
19
20 if (pixelToSumX < 0 || pixelToSumX > width - 1 ||
21 pixelToSumY < 0 || pixelToSumY > height - 1)
22 {
23 continue;
24 }
25
26 float const coefficient = mask[(yInMask + MASK_RADIUS) *
MASK_SIZE + xInMask + MASK_RADIUS];→
27 float const pixelValue = src[pixelToSumY * width +
pixelToSumX] * coefficient;→
28
29 sum += pixelValue;
30 }
31 }
32
33 dst[yInImage * width + xInImage] = sum;
34 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Простейшее ядро - профилирование I
Рис. 7: Профилирование простейшего ядра
Таблица 3: Результаты выполнения простейшего ядра
Операция Время, мс.
cudaMalloc 200
Memcpy HostToDevice 29
Memcpy DeviceToHost 23
Compute 27 (3 * 9)
Total 279 мс

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Простейшее ядро - профилирование II
Проблема
Время, затраченное на аллокацию памяти в видеокарте
(200 мс) значительно больше времени затраченного на
вычисления и передачу данных (79 мс).
Решение
Причина — инициализация контекста CUDA занимает
много времени
Инициализацию контекста можно провести
принудительно во время запуска приложения, например
вызовом cudaFree(nullptr).

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Простейшее ядро - профилирование III
Рис. 8: Профилирование простейшего ядра после
инициализации контекста
cudaMalloc вместо 200 мс заняло 0.3 мс.
Суммарное время снизилось с 279 мс до 79 мс.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с использованием кэша I
Проблема
Среди наших данных есть 2 не модифицирующихся
массива — mask и src. Они, хотя и помечены как float
const *, но компилятор не может быть уверенным, что эти
массивы или их части не модифицируется (например,
из-за перекрывающихся областей). Поэтому
кэшироваться данные в них не будут.
Решение
Пометить аргумент как __restrict__
NVIDIA Visual Proﬁler позволяет получить подробную
информацию об использовании ресурсов (и даже дать
советы по поводу оптимизации производительности).

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с использованием кэша II
(a) До оптимизации
(b) После оптимизации
Рис. 9: Использование кэша

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с использованием кэша III
Время выполнения ядра снизилось с 9 мс до 1.6 мс
Суммарное время выполнения — с 79 мс до 56 мс.
1 __global__ void GaussianGpuKernel(float const * __restrict__ src,
float const * __restrict__ mask, int width, int height, float
*dst)
→
→
2 {
3 // ...
4 }

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с асинхронным выполнением I
Проблема
Во время копирования данных в девайс или из девайса
GPU не выполняет следующее ядро.
В итоге вычислительная мощность простаивает.
Решение
CUDA (и видеокарты на аппаратном уровне)
поддерживает параллельное копирование и выполнение
ядер (нескольких параллельно, если позволяет
мощность).
Для этого необходимо использовать стримы плюс
пометить область памяти на хосте как non pageable.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с асинхронным выполнением II
Рис. 10: Профилирование асинхронного ядра
1 // ...
2 std::size_t const streamsCount = 3;
3 cudaStream_t streams[streamsCount];
4 checkCudaErrors(cudaStreamCreate(&streams[0]));
7
8 checkCudaErrors(cudaHostRegister((void*) srcRed, dataSize, 0));
9 checkCudaErrors(cudaHostRegister((void*) srcGreen, dataSize, 0));
10 checkCudaErrors(cudaHostRegister((void*) srcBlue, dataSize, 0));
11

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с асинхронным выполнением III
12 checkCudaErrors(cudaMemcpyAsync(deviceSrcRed, src[0].data(),
dataSize, cudaMemcpyHostToDevice, streams[0]));→
13 checkCudaErrors(cudaMemcpyAsync(deviceSrcBlue, src[1].data(),
14 checkCudaErrors(cudaMemcpyAsync(deviceSrcGreen, src[2].data(),
15
16 GaussianGpuKernel<<<dimGrid, dimBlock, 0,
streams[0]>>>(deviceSrc, deviceMask, width, height,
deviceDst);
→
→
17 GaussianGpuKernel<<<dimGrid, dimBlock, 0, streams[1]>>>(deviceSrc
+ pixelsCount, deviceMask, width, height,→
18 deviceDst + pixelsCount);
19 GaussianGpuKernel<<<dimGrid, dimBlock, 0, streams[2]>>>(deviceSrc
+ 2 * pixelsCount, deviceMask, width, height,→
20 deviceDst + 2 * pixelsCount);
21
22 checkCudaErrors(cudaHostRegister((void*) dst[0].data(), dataSize,
0));→
0));→

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ядро с асинхронным выполнением IV
0));→
25
26 checkCudaErrors(cudaMemcpyAsync(dst[0].data(), deviceDst,
dataSize, cudaMemcpyDeviceToHost, streams[0]));→
27 checkCudaErrors(cudaMemcpyAsync(dst[1].data(), deviceDst + height
* width, dataSize, cudaMemcpyDeviceToHost, streams[1]));→
28 checkCudaErrors(cudaMemcpyAsync(dst[2].data(), deviceDst + 2 *
height * width, dataSize, cudaMemcpyDeviceToHost,
streams[2]));
→
→
29
30 checkCudaErrors(cudaDeviceSynchronize());
Суммарное время выполнения снизилось с 56 мс до
43 мс.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Оптимизация ядра. Итоги I
Что еще можно оптимизировать:
Частота обращения к глобальной памяти Нужно
использовать shared memory, т.к. для
каждого пикселя мы запрашиваем значения
9 пикселей. А скорость памяти у видеокарты
хоть и высока (∼330 GB/s), но полной
загрузки всех ядер мы не получим.
Выравнивание доступа к памяти Оперативная память
может за один запрос отдавать до 128 байт.
Для получения максимальной пропускной
способности потоки внутри warp-а должны
обращаться к регионам памяти выровненным
на величину транзакции и последовательно.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Оптимизация ядра. Итоги II
Оптимизация алгоритма Вместо использования
двухмерной матрицы с коэффициентами
можно применить последовательно 2
одномерные, что снизит число операций с
k2
wh до 2kwh, где k — ширина матрицы, w —
ширина изображения, h — высота
изображения.
Плохому алгоритму и на топовом железе
мало места.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Оптимизация ядра. Итоги III
Таблица 4: Результаты выполнения асинхронного ядра
Операция Время, мс.
MemcpyAsync HostToDevice 20
MemcpyAsync DeviceToHost 18
Compute 4.8 (3 * 1.6)
Total 43 мс
CPU 500 мс (OpenMP)
Если еще раз взглянуть на результаты, то можно
заметить, что в нашем случае оптимизация ядра ничего
не даст — мы упираемся в копирование данных между
хостом и девайсом.
Задача для GPU оказалась слишком простой.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Итого
Использование GPU может дать большой прирост
производительности. Но при разработке требуется
учитывать особенности программно-аппаратной
архитектуры.
Не все задачи смогут выполниться на GPU быстрее чем
на CPU (имеющие, например, множество ветвлений).
Однако GPGPU уже нашло широкое применение в
различных приложениях от научных и до мультимедиа.
И чтобы быть не хуже конкурентов необходимо уже
сегодня начать рассматривать GPGPU как реальный
способ увеличить производительность.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Конец
Спасибо за внимание.

обзор средств разработки для вычислений Gpgpu

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (13)

Ähnlich wie обзор средств разработки для вычислений Gpgpu

Ähnlich wie обзор средств разработки для вычислений Gpgpu (20)

Mehr von COMAQA.BY

Mehr von COMAQA.BY (20)

обзор средств разработки для вычислений Gpgpu