SlideShare ist ein Scribd-Unternehmen logo
1 von 41
Downloaden Sie, um offline zu lesen
NVIDIA CUDA
для параллельных
вычислений на GPU

 Александр Харламов
       NVIDIA
Будущие прорывы в науке опираются на
                    компьютерное моделирование




                           Вычислительная Вычислительное   Вычислительная Вычислительная
                                          моделирование                       физика
                              геология                       медицина




                           Вычислительная Вычислительная Вычислительная Обработка
                               химия         биология      экономика    сигналов
NVIDIA Confidential 2008
 © NVIDIA Corporation
Вычисления на GPU
       Открывают новые возможности для исследователя
             Значительно сокращая время “до открытия”
             Цикл обработки данных уменьшается от дней до минут, от
             недель до дней


       Новый взгляд на вычислительные архитектуры
             Активизируя исследования в области параллельных
             алгоритмов, новых программных моделей и вычислительных
             архитектур


NVIDIA Confidential
Рост производительности GPU
     Пиковая производительность

                                  1 TF
                                                                                     GPU 10-й
                                  900
                                                                                      серии
                                  800
                                  700
                                  600
                                  500
                                                                        GPU 8-й
                                  400
                                                                         серии
                                  300
                                  200
                                  100
                                     0
                                         2002   2003   2004   2005   2006   2007   2008

NVIDIA Confidential
Масштабируемая программно-аппаратная архитектура
                           для параллельных вычислений



NVIDIA Confidential
CUDA для параллельных вычислений

         Программно-аппаратный стек
         для процессоров NVIDIA

         Раскрывает потенциал GPU для
         вычислений общего назначения

         Спроектирован для поддержки
         любого вычислительного
         интерфейса                       ATI’s Compute “Solution”

                      OpenCL, C, и т.д.

NVIDIA Confidential
Программная модель CUDA

         Масштабируемость на десятки ядер, сотни параллельных
         потоков

         Позволяет сфокусироваться на разработке параллельных
         алгоритмов
                      А не внутренней механике языка программирования


         Поддерживает гетерогенные вычисления
                      CPU для последовательного кода, GPU – для параллельного


NVIDIA Confidential
Ключевые абстракции CUDA

   Потоки CUDA выражают мелкозернистый параллелизм данных
               Упрощают параллельную декомпозицию задач
               Виртуализируют физические процессоры

   Блоки потоков CUDA выражают крупнозернистый параллелизм
               Простая модель исполнения
               Обеспечивают прозрачную масштабируемость

   Легковесные примитивы синхронизации
               Простая модель синхронизации

   Разделяемая память для обмена данными между потоками
               Кооперативное исполнение потоков
NVIDIA Confidential
Потоки CUDA

        Ядро CUDA исполняется массивом потоков
                      Все потоки исполняют одну программу
                      Каждый поток использует свой индекс для вычислений и
                      управления исполнением

                            threadID   01234567


                                   …
                                   float x = input[threadID];
                                   float y = func(x);
                                   output[threadID] = y;
                                   …



NVIDIA Confidential
Взаимодействие потоков

         Потоки могут быть не полностью независимы
                      Обмениваются результатами вычислений
                      Разделяют доступ к внешней памяти


         Возможность взаимодействия потоков – ключевая
         особенность программной модели CUDA
                      Потоки кооперируют, используя разделяемую память и примитивы
                      синхронизации




NVIDIA Confidential
Блоки потоков: масштабируемость

        Монолитный массив потоков разделяется на блоки
                      Потоки внутри блока взаимодействуют через разделяемую память
                      Потоки в разных блоках не могут синхронизироваться
        Позволяет программам прозрачно масштабироваться

                              Блок 0                      Блок 1                           Блок N-1
   threadID 0 1 2 3 4 5 6                             01234567                         01234567
                                          7


                      …                            …                                …
                      float x = input[threadID];   float x = input[threadID];       float x = input[threadID];

                                                                                …
                      float y = func(x);           float y = func(x);               float y = func(x);
                      output[threadID] = y;        output[threadID] = y;            output[threadID] = y;
                      …                            …                                …




NVIDIA Confidential
Прозрачная масштабируемость

         Блоки могут быть распределены на любой процессор
               Код на CUDA масштабируется на любое количество ядер


                                                                   Устройство B
                      Устройство A

                                                                            SM
                                                                    SM
                                                           SM                        SM
                       SM      SM
                                         Сетка блоков

                                        Блок 0   Блок 1


                                        Блок 2   Блок 3
                      Блок 0   Блок 1                     Блок 0   Блок 1   Блок 2   Блок 3

                                        Блок 4   Блок 5
                      Блок 2   Блок 3
                                                          Блок 4   Блок 5   Блок 6   Блок 7
                                        Блок 6   Блок 7


                      Блок 4   Блок 5



                      Блок 6   Блок 7


NVIDIA Confidential
Гетерогенная модель вычислений
     Последовательная программа, с параллельными секциями
            Последовательный код исполняется на CPU
            Параллельный код исполняется блоками потоков на множестве вычислительных
            модулей GPU
                                          Последовательный код

                          Параллельное ядро A
                                                                 …
                      KernelA<<< nBlk, nTid >>>(args);

                                          Последовательный код


                      Параллельное ядро B                        …
                  KernelB<<< nBlk, nTid >>>(args);

NVIDIA Confidential
Расширения C для CUDA

             Стандартный C код                        Код на CUDA C
                                    __global__ void
void
                                    saxpy_parallel(int n, float a, float *x, float *y)
saxpy_serial(int n, float a,
              float *x, float *y)   {
                                        int i = blockIdx.x*blockDim.x +
{
                                                 threadIdx.x;
  for (int i = 0; i < n; ++i)
                                        if (i < n) y[i] = a*x[i] + y[i];
     y[i] = a*x[i] + y[i];
                                    }
}
                                    // Вызов параллельного ядра SAXPY с размером
                                    // блока в 256 потоков
// Вызов последовательного
                                    int nblocks = (n + 255) / 256;
// ядра SAXPY

                                    saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y);
saxpy_serial(n, 2.0, x, y);
  NVIDIA Confidential
                                                                                      1
Уровни параллелизма в CUDA

         Параллелизм на уровне потоков
                      Каждый поток – независимая нить исполнения


         Параллелизм на уровне данных
                      По потокам внутри блока
                      По блокам внутри ядра


         Параллелизм на уровне задач
                      Блоки исполняются независимо друг от друга


NVIDIA Confidential
Пространства памяти CUDA
         Локальная память
                     Доступна в пределах потока
                                                         Сетка блоков

         Глобальная память
                     Хранит исходные данные и              Блок (0, 0)                     Блок(1, 0)
                     результаты вычислений
                                                                                                     Разделяемая память
                                                                Разделяемая память
                     Внешняя к GPU, большой объем
                                                           Регистры       Регистры          Регистры           Регистры

         Разделяемая память
                     Доступна всем потокам в блоке          Поток(0, 0)    Поток (1, 0)      Поток(0, 0)        Поток (1, 0)

                     Небольшой объем, находится на
                     кристалле процессора
                     Высокая скорость доступа
                                                           Локальная      Локальная        Локальная           Локальная
                                                            память         память           память              память


         Память CPU (host)                        Host                           Глобальная память
                     Недоступна потокам CUDA
                     напрямую                            DRAM

NVIDIA Confidential 2008
 © NVIDIA Corporation
Ресурсы для разработчиков

         Инструментарий разработчика CUDA
         (CUDA toolkit)
                      Компилятор и библиотеки
                      Версии для Win32/64, MacOS, Linux
                      доступны для загрузки


          Набор примеров и средств разработки
         (CUDA SDK)
                      Готовые решения на CUDA
                      Примеры использования


         Библиотеки и инструменты для отладки
         и оптимизации
                      CUFFT, CUBLAS, CUDPP

NVIDIA Confidential
GPU как параллельный процессор
        GPU обладает массивно-параллельной вычислительной
        архитектурой
               Выступает в роли сопроцессора для CPU
               Имеет доступ к выделенной памяти с широкой полосой
               пропускания                                            80+ GB/s
               Исполняет множество потоков одновременно


        Параллельные секции приложения исполняются как
        вычислительные ядра
               Каждое ядро исполняет множество потоков

        Потоки GPU легковесны
            Очень низкие накладные расходны на создание
            Мгновенное переключение контекстов
                    GPU использует тысячи потоков для эффективности


NVIDIA Confidential 2008
 © NVIDIA Corporation
Архитектура NVIDIA Tesla 10
         240 процессоров работают на частоте 1.5 GHz: 1 TFLOPS в пике
         128 потоков на процессор: 30,720 потоков на чипе
                                                                                                                                                                                                                                                                                                                                                                                                                                 SM
                                                                                                                                                                                                                                                                                                                                                                                                                                I-Cache
                                                                                                                                                                                                                                                                                                                                                                                                                                MT Issue
                                                                                                                                                                                                                                                                                                                                                                                                                                C-Cache

                                                                                                                                                                                                                                                                                                                                                                                                                                SP SP
                                                           Host CPU                             Bridge                          System Memory



                                                                                                                                                                                                                                                                                                                                                                                                                                SP SP
                                                                                                                                                                                                                 Tesla T10
                                                                                         Work Distribution




                                                                                                                                                                                                                                                                                                                                                                                                                                SP SP
                                       ``                                      ``                                         ``                                     ``                                    ``                                     ``                                    ``                                     ``                                        ``                                    ``
                                    SMC                                     SMC                                       SMC                                     SMC                                   SMC                                    SMC                                   SMC                                    SMC                                       SMC                                   SMC
                      I-Cache      I-Cache       I-Cache       I-Cache     I-Cache       I-Cache      I-Cache        I-Cache        I-Cache     I-Cache      I-Cache       I-Cache    I-Cache      I-Cache        I-Cache    I-Cache      I-Cache       I-Cache    I-Cache      I-Cache       I-Cache     I-Cache      I-Cache       I-Cache         I-Cache     I-Cache       I-Cache    I-Cache      I-Cache       I-Cache
                      MT Issue    MT Issue       MT Issue     MT Issue    MT Issue       MT Issue     MT Issue    MT Issue          MT Issue    MT Issue    MT Issue       MT Issue   MT Issue    MT Issue        MT Issue   MT Issue    MT Issue       MT Issue   MT Issue    MT Issue       MT Issue    MT Issue    MT Issue       MT Issue    MT Issue       MT Issue       MT Issue   MT Issue    MT Issue       MT Issue
                      C-Cache     C-Cache        C-Cache      C-Cache     C-Cache        C-Cache      C-Cache     C-Cache           C-Cache     C-Cache     C-Cache        C-Cache    C-Cache     C-Cache         C-Cache    C-Cache     C-Cache        C-Cache    C-Cache     C-Cache        C-Cache     C-Cache     C-Cache        C-Cache         C-Cache    C-Cache        C-Cache    C-Cache     C-Cache        C-Cache



                                                                                                                                                                                                                                                                                                                                                                                                                                SP SP
                      SP   SP     SP        SP   SP   SP      SP   SP     SP        SP   SP   SP      SP   SP        SP        SP   SP   SP     SP   SP     SP        SP   SP   SP    SP   SP     SP        SP    SP   SP    SP   SP     SP        SP   SP   SP    SP   SP     SP        SP   SP   SP     SP   SP     SP        SP   SP   SP         SP   SP    SP        SP   SP   SP    SP   SP     SP        SP   SP   SP

                      SP   SP     SP        SP   SP   SP      SP   SP     SP        SP   SP   SP      SP   SP        SP        SP   SP   SP     SP   SP     SP        SP   SP   SP    SP   SP     SP        SP    SP   SP    SP   SP     SP        SP   SP   SP    SP   SP     SP        SP   SP   SP     SP   SP     SP        SP   SP   SP         SP   SP    SP        SP   SP   SP    SP   SP     SP        SP   SP   SP

                      SP   SP     SP ` SP        SP   SP      SP   SP     SP ` SP        SP   SP      SP   SP        SP ` SP        SP   SP     SP   SP     SP ` SP        SP   SP    SP   SP     SP ` SP         SP   SP    SP   SP     SP ` SP        SP   SP    SP   SP     SP ` SP        SP   SP     SP   SP     SP ` SP        SP   SP         SP   SP    SP ` SP        SP   SP    SP   SP     SP ` SP        SP   SP

                      SP   SP     SP        SP   SP   SP      SP   SP     SP        SP   SP   SP      SP   SP        SP        SP   SP   SP     SP   SP     SP        SP   SP   SP    SP   SP     SP        SP    SP   SP    SP   SP     SP        SP   SP   SP    SP   SP     SP        SP   SP   SP     SP   SP     SP        SP   SP   SP         SP   SP    SP        SP   SP   SP    SP   SP     SP        SP   SP   SP

                      SFU SFU     SFU SFU        SFU SFU      SFU SFU     SFU SFU        SFU SFU      SFU SFU     SFU SFU           SFU SFU     SFU SFU     SFU SFU        SFU SFU    SFU SFU     SFU SFU         SFU SFU    SFU SFU     SFU SFU        SFU SFU    SFU SFU     SFU SFU        SFU SFU     SFU SFU     SFU SFU        SFU SFU     SFU SFU        SFU SFU        SFU SFU    SFU SFU     SFU SFU        SFU SFU

                                                                                                                                                                                                                                                                                                                                                                                                                                SFU SFU
                        DP           DP            DP            DP          DP            DP            DP            DP             DP          DP           DP            DP         DP           DP             DP         DP           DP            DP         DP           DP            DP          DP           DP            DP              DP          DP            DP         DP           DP            DP
                      Shared       Shared        Shared        Shared      Shared        Shared       Shared         Shared         Shared      Shared       Shared        Shared     Shared       Shared         Shared     Shared       Shared        Shared     Shared       Shared        Shared      Shared       Shared        Shared          Shared      Shared        Shared     Shared       Shared        Shared
                      Memory       Memory        Memory        Memory      Memory        Memory       Memory         Memory         Memory      Memory       Memory        Memory     Memory       Memory         Memory     Memory       Memory        Memory     Memory       Memory        Memory      Memory       Memory        Memory          Memory      Memory        Memory     Memory       Memory        Memory

                                 Texture Unit                            Texture Unit                            Texture Unit                              Texture Unit                          Texture Unit                           Texture Unit                          Texture Unit                           Texture Unit                              Texture Unit                          Texture Unit
                                   Tex L1                                  Tex L1                                    Tex L1                                  Tex L1                                Tex L1                                 Tex L1                                Tex L1                                 Tex L1                                    Tex L1                                Tex L1


                                                                                                                                                                                                                                                                                                                                                                                                                                  DP
                                                                                                                                                                                                                 Interconnection Network

                                                  ROP           L2                              ROP             L2                             ROP            L2                       ROP                   L2                     ROP                 L2                      ROP                  L2                         ROP             L2                             ROP         L2
                                                                                                                                                                                                                                                                                                                                                                                                                                Shared
                                                                                                                                                                                                                                                                                                                                                                                                                                Memory
                                                      DRAM                                          DRAM                                        DRAM                                         DRAM                                        DRAM                                            DRAM                                        DRAM                                           DRAM

NVIDIA Confidential
Мультипроцессор NVIDIA Tesla 10
                                                                                                      SM
                                                                                                     I-Cache
         RISC-подобная скалярная система команд                                                      MT Issue
         Многопоточное исполнение инструкций                                                         C-Cache
                      Поддержка до 1024 потоков
                                                                                                     SP SP
                                                                          TPC
                      Аппаратный менеджер потоков                      Geometry Controller
                                                                              SMC



         8 скалярных АЛУ
                                                                I-Cache      I-Cache      I-Cache
                                                                MT Issue    MT Issue      MT Issue

                                                                                                     SP SP
                                                                C-Cache     C-Cache       C-Cache
                                                                SP   SP     SP    SP      SP   SP


                      Операции с одинарной точностью IEEE-754   SP   SP     SP    SP      SP   SP

                                                                SP   SP     SP    SP      SP   SP



                      Целочисленные операции
                                                                SP   SP     SP    SP      SP   SP


                                                                                                     SP SP
                                                                SFU SFU     SFU SFU       SFU SFU

                                                                  DP           DP            DP


                      16K 32-х битных регистров                 Shared       Shared       Shared
                                                                Memory       Memory       Memory

                                                                           Texture Unit


                                                                                                     SP SP
                                                                             Tex L1



         2 АЛУ для специальных операций
                      sin/cos/rcp/rsq
                                                                                                     SFU SFU
         1 АЛУ для операций с двойной точностью
                      Поддерживает FMA                                                                 DP
         16KB разделяемой памяти
                                                                                                     Shared
                                                                                                     Memory
NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 1: GPU исполняет программы как графические
         шейдеры




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 1: GPU исполняет программы как графические
         шейдеры

         Это не так – CUDA использует вычислительные ресурсы GPU
         напрямую




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 2: Архитектурно, GPU представляют из себя
                      Очень широкие SIMD-машины (1000) ...
                      … с крайне неэффективной поддержкой ветвления ...
                      … которые ориентированые на обработку 4-х мерных векторов




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 2: Архитектурно, GPU представляют из себя
                      Очень широкие SIMD-машины (1000) ...
                      … с крайне неэффективной поддержкой ветвления ...
                      … которые ориентированые на обработку 4-х мерных векторов


         Современные GPU используют SIMT исполнение, с размером
         блока (warp) в 32 элемента и скалярными потоками




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 3: GPU неэффективны с точки зрения
         энергопотребления




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 3: GPU неэффективны с точки зрения
         энергопотребления

         Показатель производительность/ватт для GPU от 4 до 20 раз
         выше чем у CPU




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 4: GPU не используют “настоящую” арифметику с
         плавающей точкой




NVIDIA Confidential
Мифы о вычислениях на GPU

         Миф 4: GPU не используют “настоящую” арифметику с
         плавающей точкой

         GPU поддерживают стандарт IEEE-754
                      Сравнимы с другими вычислительными устройствами
                      Поддерживаются вычисления с двойной точностью




NVIDIA Confidential
Поддержка операций с двойной точностью
                                                 NVIDIA GPU                                     SSE2                                 Cell SPE
Поддержка стандарта                 IEEE 754                                   IEEE 754                                   IEEE 754

Режимы округления для FADD и FMUL   Все 4 режима IEEE: rtne, zero, inf, -inf   Все 4 режима IEEE: rtne, zero, inf, -inf   Только zero/truncate

Обработка денормализованных чисел   С полной скоростью                         Поддерживается, 1000+ циклов               Не поддерживается
Поддержка NaN                       Да                                         Да                                         Нет
Поддержка переполнений и
                                    Да                                         Да                                         Бесконечности отсутствуют
бесконечностей
Флаги                               Нет                                        Да                                         Некоторые
                                    Да                                         Нет                                        Да
FMA

Извлечение квадратного корня        Эмуляция на основе FMA                     Аппаратная поддержка                       Программная эмуляция


Деление                             Эмуляция на основе FMA                     Аппаратная поддержка                       Программная эмуляция

Точность операции 1/x                                                          12 бит                                     12 бит
                                    24 bit

Точность операции 1/sqrt(x)                                                    12 бит                                     12 бит
                                    23 bit

Точность операций log2(x) и 2^x                                                Нет                                        Нет
                                    23 bit




        NVIDIA Confidential
                                                                                                                                           2
Вопросы ?


                                                                               GPU
                                                                                        CPU




  Oil & Gas                Finance   Medical   Biophysics   Numerics   Audio    Video   Imaging

NVIDIA Confidential 2008
 © NVIDIA Corporation
Backup slides




NVIDIA Confidential
Производительность DGEMM




NVIDIA Confidential
FFT Performance: CPU vs GPU (8-Series)
                                              NVIDIA Tesla C870 GPU (8-series GPU)
                  1D Fast Fourier Transform
                                              Quad-Core Intel Xeon CPU 5400 Series 3.0GHz,
                          On CUDA             In-place, complex, single precision
             90

             80

             70
    GFLOPS




             60
                                                                      CUFFT
             50
                                                                      2.x
                                                                      CUFFT
             40
                                                                      1.1
                                                                                       • Intel FFT numbers
             30

                                                                                         calculated by repeating
             20
                                                                                         same FFT plan
                                                                                       • Real FFT performance is
             10
                                                                                         ~10 GFlops
              0




                                 Transform Size (Power of 2)
Source for Intel data : http://www.intel.com/cd/software/products/asmo-na/eng/266852.htm
 NVIDIA Confidential
Single Precision BLAS: CPU vs GPU (10-series)
                                                CUBLAS: CUDA 2.0b2, Tesla C1060 (10-series GPU)
                       BLAS (SGEMM) on CUDA     ATLAS 3.81 on Dual 2.8GHz Opteron Dual-Core
                 350

                                                                                   CUDA
                 300

                                                                                   ATLAS 1
                 250
                                                                                   Thread
        GFLOPS




                 200


                 150


                 100


                 50


                   0




                                         Matrix Size
NVIDIA Confidential
Double Precision BLAS: CPU vs GPU (10-series)
                                                       CUBLAS CUDA 2.0b2 on Tesla C1060 (10-series)
                            BLAS (DGEMM) on CUDA       ATLAS 3.81 on Intel Xeon E5440 Quad-core, 2.83 GHz
                       70

                                                                                           CUBLAS
                       60


                       50
             GFLOPS




                       40


                       30


                       20


                       10


                        0




                                                   Matrix Size
 NVIDIA Confidential
Folding@Home

         Distributed computing to study protein folding
                     Alzheimer’s Disease
                     Huntington’s Disease
                     Cancer
                     Osteogenesis imperfecta
                     Parkinson’s Disease
                     Antibiotics




         CUDA client available now!

                                                          36
NVIDIA Confidential 2008
 © NVIDIA Corporation
Molecular Dynamics : GROMACS

                                          Folding@Home



                                    600

                                    450                                                  511
                           ns/day




                                                                              369
                                    300

                              4     150
                                                              170
                                                4    100
                                     0
                           CPU            PS3       ATI GPU         Tesla 8          Tesla 10


                                                                              NVIDIA GPUS
NVIDIA Confidential 2008
 © NVIDIA Corporation
National Center for Atmospheric Research
         Weather Research and Forecast (WRF) model
          4000+ registered users worldwide
          First-ever release with GPU acceleration
                                                      12km CONUS WRF benchmark
                                                     Running on NCSA CUDA cluster


         Adapted 1% of WRF code to CUDA

         Resulted in 20% overall speedup

         Ongoing work to adapt more
         of WRF to CUDA

NVIDIA Confidential 2008
 © NVIDIA Corporation
Astrophysics N-Body Simulation




        12+ billion body-body interactions per second
        300 GFLOP/s+ on GeForce 8800 Ultra                    http://progrape.jp/cs/
               1-5 GFLOP/s on single-core CPU
               Faster than custom GRAPE-6Af n-body computer
        http://www.astrogpu.org/
NVIDIA Confidential 2008
 © NVIDIA Corporation
Linear Scaling with Multiple GPUs
                                  Oil and Gas Computing: Reverse Time Migration
                                        Hand Optimized SSE Versus CUDA C
                        200


                        160
               GFLOPS




                        120


                        80


                        40


                          0
                              1         4         8           128      256          384

                                                  Number of Cores
                                     X86 CPU                           NVIDIA GPU
NVIDIA Confidential
Cambridge University Turbomachinery CFD
         Partial differential equations on structured grids

         NVIDIA GPUs enable faster design cycles
         and new science

         Up to 10 million points on a single GPU

         Scales to many GPUs using MPI

         10x – 20x speedup Intel Core2 Quad 2.33 GHz
                                    CFD analysis of a jet engine fan, courtesy of Vicente Jerez Fidalgo, Whittle Lab
                                    Slide courtesy of Tobias Brandvik and Graham Pullan, Whittle Lab
NVIDIA Confidential 2008
 © NVIDIA Corporation

Weitere ähnliche Inhalte

Was ist angesagt?

тупицын Ec2 Rootconf2009
тупицын Ec2 Rootconf2009тупицын Ec2 Rootconf2009
тупицын Ec2 Rootconf2009Liudmila Li
 
11 Net Scaler Xa1
11 Net Scaler Xa111 Net Scaler Xa1
11 Net Scaler Xa1Liudmila Li
 
IBM Jazz - A New Approach For Software Development (In Russian)
IBM Jazz - A New Approach For Software Development (In Russian)IBM Jazz - A New Approach For Software Development (In Russian)
IBM Jazz - A New Approach For Software Development (In Russian)Alexander Klimov
 
Tesla&Cuda For Kpi Event Rus
Tesla&Cuda For Kpi Event RusTesla&Cuda For Kpi Event Rus
Tesla&Cuda For Kpi Event Rusit.times.com.ua
 
OnlineSEM.ru - Google Russia Stanislav Vidyayev
OnlineSEM.ru - Google Russia Stanislav VidyayevOnlineSEM.ru - Google Russia Stanislav Vidyayev
OnlineSEM.ru - Google Russia Stanislav VidyayevGooVape
 
Secubio Black and white/Blue LCD Fingerprint Machine hardware Manual
Secubio Black and white/Blue LCD Fingerprint Machine hardware ManualSecubio Black and white/Blue LCD Fingerprint Machine hardware Manual
Secubio Black and white/Blue LCD Fingerprint Machine hardware Manualsecubio Secubio
 
الكتاب: البرهان في علوم القرآن
الكتاب: البرهان في علوم القرآنالكتاب: البرهان في علوم القرآن
الكتاب: البرهان في علوم القرآنbafgeeeeee
 

Was ist angesagt? (8)

тупицын Ec2 Rootconf2009
тупицын Ec2 Rootconf2009тупицын Ec2 Rootconf2009
тупицын Ec2 Rootconf2009
 
Beauty
BeautyBeauty
Beauty
 
11 Net Scaler Xa1
11 Net Scaler Xa111 Net Scaler Xa1
11 Net Scaler Xa1
 
IBM Jazz - A New Approach For Software Development (In Russian)
IBM Jazz - A New Approach For Software Development (In Russian)IBM Jazz - A New Approach For Software Development (In Russian)
IBM Jazz - A New Approach For Software Development (In Russian)
 
Tesla&Cuda For Kpi Event Rus
Tesla&Cuda For Kpi Event RusTesla&Cuda For Kpi Event Rus
Tesla&Cuda For Kpi Event Rus
 
OnlineSEM.ru - Google Russia Stanislav Vidyayev
OnlineSEM.ru - Google Russia Stanislav VidyayevOnlineSEM.ru - Google Russia Stanislav Vidyayev
OnlineSEM.ru - Google Russia Stanislav Vidyayev
 
Secubio Black and white/Blue LCD Fingerprint Machine hardware Manual
Secubio Black and white/Blue LCD Fingerprint Machine hardware ManualSecubio Black and white/Blue LCD Fingerprint Machine hardware Manual
Secubio Black and white/Blue LCD Fingerprint Machine hardware Manual
 
الكتاب: البرهان في علوم القرآن
الكتاب: البرهان في علوم القرآنالكتاب: البرهان في علوم القرآن
الكتاب: البرهان في علوم القرآن
 

Andere mochten auch

Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...
Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...
Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...Lidia Dranik
 
MT 117 Key Innovations in Cybersecurity
MT 117 Key Innovations in CybersecurityMT 117 Key Innovations in Cybersecurity
MT 117 Key Innovations in CybersecurityDell EMC World
 
Digital promotion новые взгляды на методику
Digital promotion новые взгляды на методикуDigital promotion новые взгляды на методику
Digital promotion новые взгляды на методикуDmitry Karpov
 
MT155 Analytics and Cloud Native Apps – Your Business Game Changer
MT155 Analytics and Cloud Native Apps – Your Business Game ChangerMT155 Analytics and Cloud Native Apps – Your Business Game Changer
MT155 Analytics and Cloud Native Apps – Your Business Game ChangerDell EMC World
 
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...Carmine Gallo
 
David Goulden keynote at Dell EMC World
David Goulden keynote at Dell EMC WorldDavid Goulden keynote at Dell EMC World
David Goulden keynote at Dell EMC WorldDell EMC World
 
Presentation Design Trends 2015
Presentation Design Trends 2015Presentation Design Trends 2015
Presentation Design Trends 2015SketchBubble
 
Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5500 Startups
 
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.seEdahn Small
 
How Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksHow Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksWealthsimple
 
AdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First PitchAdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First Pitchadpushup
 
Zenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateZenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateJoseph Hsieh
 
The deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup CastleThe deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup Castleentercastle
 
AppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckAppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckLaxman Papineni
 
The 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionThe 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionGoCanvas
 
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes App
 
500’s Demo Day Batch 16 >> Podozi
500’s Demo Day Batch 16 >>  Podozi500’s Demo Day Batch 16 >>  Podozi
500’s Demo Day Batch 16 >> Podozi500 Startups
 

Andere mochten auch (20)

Nvidia Hpc Day Kiev Rus
Nvidia Hpc Day Kiev RusNvidia Hpc Day Kiev Rus
Nvidia Hpc Day Kiev Rus
 
Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...
Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...
Event Garden Радио напрокат - Creating presentation (marketing, copywriting, ...
 
MT 117 Key Innovations in Cybersecurity
MT 117 Key Innovations in CybersecurityMT 117 Key Innovations in Cybersecurity
MT 117 Key Innovations in Cybersecurity
 
Digital promotion новые взгляды на методику
Digital promotion новые взгляды на методикуDigital promotion новые взгляды на методику
Digital promotion новые взгляды на методику
 
MT155 Analytics and Cloud Native Apps – Your Business Game Changer
MT155 Analytics and Cloud Native Apps – Your Business Game ChangerMT155 Analytics and Cloud Native Apps – Your Business Game Changer
MT155 Analytics and Cloud Native Apps – Your Business Game Changer
 
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...
The Power of Foursquare: 7 Innovative Ways to Get Your Customers to Check In ...
 
David Goulden keynote at Dell EMC World
David Goulden keynote at Dell EMC WorldDavid Goulden keynote at Dell EMC World
David Goulden keynote at Dell EMC World
 
Presentation Design Trends 2015
Presentation Design Trends 2015Presentation Design Trends 2015
Presentation Design Trends 2015
 
Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5
 
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
 
How Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksHow Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeks
 
AdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First PitchAdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First Pitch
 
Zenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateZenpayroll Pitch Deck Template
Zenpayroll Pitch Deck Template
 
The deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup CastleThe deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup Castle
 
SteadyBudget's Seed Funding Pitch Deck
SteadyBudget's Seed Funding Pitch DeckSteadyBudget's Seed Funding Pitch Deck
SteadyBudget's Seed Funding Pitch Deck
 
AppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckAppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch Deck
 
The 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionThe 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 million
 
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
 
500’s Demo Day Batch 16 >> Podozi
500’s Demo Day Batch 16 >>  Podozi500’s Demo Day Batch 16 >>  Podozi
500’s Demo Day Batch 16 >> Podozi
 
Square Pitch Deck
Square Pitch DeckSquare Pitch Deck
Square Pitch Deck
 

Ähnlich wie Kiev Tesla Day

Принцип Парето в стандартизации ИБ
Принцип Парето в стандартизации ИБПринцип Парето в стандартизации ИБ
Принцип Парето в стандартизации ИБAleksey Lukatskiy
 
vSphere Launch Business Keynote - Москва, 26 мая
vSphere Launch Business Keynote - Москва, 26 маяvSphere Launch Business Keynote - Москва, 26 мая
vSphere Launch Business Keynote - Москва, 26 маяAnton Antich
 
Jazz – открытая платформа разработки ПО
Jazz – открытая платформа разработки ПОJazz – открытая платформа разработки ПО
Jazz – открытая платформа разработки ПОSQALab
 
Minsk Jazz 190509 Templ
Minsk Jazz 190509 TemplMinsk Jazz 190509 Templ
Minsk Jazz 190509 Templsef2009
 
Управление рисками ИБ: отдельные практические аспекты
Управление рисками ИБ: отдельные практические аспектыУправление рисками ИБ: отдельные практические аспекты
Управление рисками ИБ: отдельные практические аспектыAleksey Lukatskiy
 
Minsk Web Appl 190509
Minsk Web Appl 190509Minsk Web Appl 190509
Minsk Web Appl 190509sef2009
 
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3Транслируем.бел
 
Security for Business Impact Analysis
Security for Business Impact AnalysisSecurity for Business Impact Analysis
Security for Business Impact AnalysisAleksey Lukatskiy
 
Delivery of media content of IIS Media Services
Delivery of media content of  IIS Media ServicesDelivery of media content of  IIS Media Services
Delivery of media content of IIS Media ServicesSQALab
 
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour ToUa Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour ToDenis Dovgopoliy
 
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour ToUa Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour Toguestb8b1b6c1
 
Cisco Web Ex создание центра технической поддержки
Cisco   Web Ex   создание центра технической поддержкиCisco   Web Ex   создание центра технической поддержки
Cisco Web Ex создание центра технической поддержкиguest813d253
 
Дизайн посуды: Тенденции и образ жизни.
Дизайн посуды: Тенденции и образ жизни.Дизайн посуды: Тенденции и образ жизни.
Дизайн посуды: Тенденции и образ жизни.Lumiknows Consultancy
 
Производительность труда в Ритейл Аналитике
Производительность труда в Ритейл АналитикеПроизводительность труда в Ритейл Аналитике
Производительность труда в Ритейл АналитикеEvgeniy Evgeniy
 
俄罗斯Gost标准,进出口购买商品目录№RG 3753
俄罗斯Gost标准,进出口购买商品目录№RG 3753俄罗斯Gost标准,进出口购买商品目录№RG 3753
俄罗斯Gost标准,进出口购买商品目录№RG 3753Turkmenistan Laws
 
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689Turkmenistan Laws
 

Ähnlich wie Kiev Tesla Day (20)

Принцип Парето в стандартизации ИБ
Принцип Парето в стандартизации ИБПринцип Парето в стандартизации ИБ
Принцип Парето в стандартизации ИБ
 
vSphere Launch Business Keynote - Москва, 26 мая
vSphere Launch Business Keynote - Москва, 26 маяvSphere Launch Business Keynote - Москва, 26 мая
vSphere Launch Business Keynote - Москва, 26 мая
 
Jazz – открытая платформа разработки ПО
Jazz – открытая платформа разработки ПОJazz – открытая платформа разработки ПО
Jazz – открытая платформа разработки ПО
 
Minsk Jazz 190509 Templ
Minsk Jazz 190509 TemplMinsk Jazz 190509 Templ
Minsk Jazz 190509 Templ
 
Управление рисками ИБ: отдельные практические аспекты
Управление рисками ИБ: отдельные практические аспектыУправление рисками ИБ: отдельные практические аспекты
Управление рисками ИБ: отдельные практические аспекты
 
Minsk Web Appl 190509
Minsk Web Appl 190509Minsk Web Appl 190509
Minsk Web Appl 190509
 
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3
Bynet2.3 Microsoft. Mediacontent delivery using IIS7 and Silverlight3
 
Security for Business Impact Analysis
Security for Business Impact AnalysisSecurity for Business Impact Analysis
Security for Business Impact Analysis
 
Delivery of media content of IIS Media Services
Delivery of media content of  IIS Media ServicesDelivery of media content of  IIS Media Services
Delivery of media content of IIS Media Services
 
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour ToUa Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
 
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour ToUa Ru High Tech Entrepreneurship And Venture Capital Tour To
Ua Ru High Tech Entrepreneurship And Venture Capital Tour To
 
20070613 Rit2007 Training
20070613 Rit2007 Training20070613 Rit2007 Training
20070613 Rit2007 Training
 
Hackday Ml
Hackday MlHackday Ml
Hackday Ml
 
Cisco Web Ex создание центра технической поддержки
Cisco   Web Ex   создание центра технической поддержкиCisco   Web Ex   создание центра технической поддержки
Cisco Web Ex создание центра технической поддержки
 
Дизайн посуды: Тенденции и образ жизни.
Дизайн посуды: Тенденции и образ жизни.Дизайн посуды: Тенденции и образ жизни.
Дизайн посуды: Тенденции и образ жизни.
 
Scrum And Business
Scrum And BusinessScrum And Business
Scrum And Business
 
Grape Online Strategy Cases
Grape Online Strategy CasesGrape Online Strategy Cases
Grape Online Strategy Cases
 
Производительность труда в Ритейл Аналитике
Производительность труда в Ритейл АналитикеПроизводительность труда в Ритейл Аналитике
Производительность труда в Ритейл Аналитике
 
俄罗斯Gost标准,进出口购买商品目录№RG 3753
俄罗斯Gost标准,进出口购买商品目录№RG 3753俄罗斯Gost标准,进出口购买商品目录№RG 3753
俄罗斯Gost标准,进出口购买商品目录№RG 3753
 
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689
俄罗斯进出口标准,技术规格,法律,法规,中英文,目录编号RG 2689
 

Mehr von it.times.com.ua

Евгений Иосифов
Евгений ИосифовЕвгений Иосифов
Евгений Иосифовit.times.com.ua
 
Анастасия Марченко
Анастасия МарченкоАнастасия Марченко
Анастасия Марченкоit.times.com.ua
 
Svm Practicalview Rus V2
Svm Practicalview Rus V2Svm Practicalview Rus V2
Svm Practicalview Rus V2it.times.com.ua
 
IP-видеонаблюдение Cisco
IP-видеонаблюдение CiscoIP-видеонаблюдение Cisco
IP-видеонаблюдение Ciscoit.times.com.ua
 
IP-видеонаблюдение Cisco, схема стенда
IP-видеонаблюдение Cisco, схема стендаIP-видеонаблюдение Cisco, схема стенда
IP-видеонаблюдение Cisco, схема стендаit.times.com.ua
 
IP-видеонаблюдение Cisco. Унифицированная безопасность
IP-видеонаблюдение Cisco. Унифицированная безопасностьIP-видеонаблюдение Cisco. Унифицированная безопасность
IP-видеонаблюдение Cisco. Унифицированная безопасностьit.times.com.ua
 
Пример применения Cuda
Пример применения CudaПример применения Cuda
Пример применения Cudait.times.com.ua
 
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partners
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For PartnersNew Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partners
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partnersit.times.com.ua
 
Nehalem - подробности
Nehalem - подробностиNehalem - подробности
Nehalem - подробностиit.times.com.ua
 
Xeon 5500 Launch Keynote Press Kit
Xeon 5500 Launch Keynote Press KitXeon 5500 Launch Keynote Press Kit
Xeon 5500 Launch Keynote Press Kitit.times.com.ua
 
телемост эффективный цод 1
телемост   эффективный цод 1телемост   эффективный цод 1
телемост эффективный цод 1it.times.com.ua
 
09.03.25 Efficient Enterprise
09.03.25 Efficient Enterprise09.03.25 Efficient Enterprise
09.03.25 Efficient Enterpriseit.times.com.ua
 
Принципы эксплуатации и построения эффективных ЦОД
Принципы эксплуатации и построения эффективных ЦОДПринципы эксплуатации и построения эффективных ЦОД
Принципы эксплуатации и построения эффективных ЦОДit.times.com.ua
 
07 - Juniper Rus Intro Partners
07 - Juniper Rus Intro Partners07 - Juniper Rus Intro Partners
07 - Juniper Rus Intro Partnersit.times.com.ua
 

Mehr von it.times.com.ua (17)

Евгений Иосифов
Евгений ИосифовЕвгений Иосифов
Евгений Иосифов
 
Анастасия Марченко
Анастасия МарченкоАнастасия Марченко
Анастасия Марченко
 
Svm Practicalview Rus V2
Svm Practicalview Rus V2Svm Practicalview Rus V2
Svm Practicalview Rus V2
 
IP-видеонаблюдение Cisco
IP-видеонаблюдение CiscoIP-видеонаблюдение Cisco
IP-видеонаблюдение Cisco
 
IP-видеонаблюдение Cisco, схема стенда
IP-видеонаблюдение Cisco, схема стендаIP-видеонаблюдение Cisco, схема стенда
IP-видеонаблюдение Cisco, схема стенда
 
IP-видеонаблюдение Cisco. Унифицированная безопасность
IP-видеонаблюдение Cisco. Унифицированная безопасностьIP-видеонаблюдение Cisco. Унифицированная безопасность
IP-видеонаблюдение Cisco. Унифицированная безопасность
 
11g Part
11g Part11g Part
11g Part
 
Пример применения Cuda
Пример применения CudaПример применения Cuda
Пример применения Cuda
 
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partners
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For PartnersNew Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partners
New Dell Enterpise Portfolio Presentation By Dmitriy Piltay For Partners
 
Nehalem - подробности
Nehalem - подробностиNehalem - подробности
Nehalem - подробности
 
Xeon 5500 Launch Keynote Press Kit
Xeon 5500 Launch Keynote Press KitXeon 5500 Launch Keynote Press Kit
Xeon 5500 Launch Keynote Press Kit
 
телемост эффективный цод 1
телемост   эффективный цод 1телемост   эффективный цод 1
телемост эффективный цод 1
 
09.03.25 Efficient Enterprise
09.03.25 Efficient Enterprise09.03.25 Efficient Enterprise
09.03.25 Efficient Enterprise
 
Принципы эксплуатации и построения эффективных ЦОД
Принципы эксплуатации и построения эффективных ЦОДПринципы эксплуатации и построения эффективных ЦОД
Принципы эксплуатации и построения эффективных ЦОД
 
14 Net Quintum
14 Net Quintum14 Net Quintum
14 Net Quintum
 
07 - Juniper Rus Intro Partners
07 - Juniper Rus Intro Partners07 - Juniper Rus Intro Partners
07 - Juniper Rus Intro Partners
 
06 - Intel 10 Gb For Dc
06 - Intel 10 Gb For Dc06 - Intel 10 Gb For Dc
06 - Intel 10 Gb For Dc
 

Kiev Tesla Day

  • 1. NVIDIA CUDA для параллельных вычислений на GPU Александр Харламов NVIDIA
  • 2. Будущие прорывы в науке опираются на компьютерное моделирование Вычислительная Вычислительное Вычислительная Вычислительная моделирование физика геология медицина Вычислительная Вычислительная Вычислительная Обработка химия биология экономика сигналов NVIDIA Confidential 2008 © NVIDIA Corporation
  • 3. Вычисления на GPU Открывают новые возможности для исследователя Значительно сокращая время “до открытия” Цикл обработки данных уменьшается от дней до минут, от недель до дней Новый взгляд на вычислительные архитектуры Активизируя исследования в области параллельных алгоритмов, новых программных моделей и вычислительных архитектур NVIDIA Confidential
  • 4. Рост производительности GPU Пиковая производительность 1 TF GPU 10-й 900 серии 800 700 600 500 GPU 8-й 400 серии 300 200 100 0 2002 2003 2004 2005 2006 2007 2008 NVIDIA Confidential
  • 5. Масштабируемая программно-аппаратная архитектура для параллельных вычислений NVIDIA Confidential
  • 6. CUDA для параллельных вычислений Программно-аппаратный стек для процессоров NVIDIA Раскрывает потенциал GPU для вычислений общего назначения Спроектирован для поддержки любого вычислительного интерфейса ATI’s Compute “Solution” OpenCL, C, и т.д. NVIDIA Confidential
  • 7. Программная модель CUDA Масштабируемость на десятки ядер, сотни параллельных потоков Позволяет сфокусироваться на разработке параллельных алгоритмов А не внутренней механике языка программирования Поддерживает гетерогенные вычисления CPU для последовательного кода, GPU – для параллельного NVIDIA Confidential
  • 8. Ключевые абстракции CUDA Потоки CUDA выражают мелкозернистый параллелизм данных Упрощают параллельную декомпозицию задач Виртуализируют физические процессоры Блоки потоков CUDA выражают крупнозернистый параллелизм Простая модель исполнения Обеспечивают прозрачную масштабируемость Легковесные примитивы синхронизации Простая модель синхронизации Разделяемая память для обмена данными между потоками Кооперативное исполнение потоков NVIDIA Confidential
  • 9. Потоки CUDA Ядро CUDA исполняется массивом потоков Все потоки исполняют одну программу Каждый поток использует свой индекс для вычислений и управления исполнением threadID 01234567 … float x = input[threadID]; float y = func(x); output[threadID] = y; … NVIDIA Confidential
  • 10. Взаимодействие потоков Потоки могут быть не полностью независимы Обмениваются результатами вычислений Разделяют доступ к внешней памяти Возможность взаимодействия потоков – ключевая особенность программной модели CUDA Потоки кооперируют, используя разделяемую память и примитивы синхронизации NVIDIA Confidential
  • 11. Блоки потоков: масштабируемость Монолитный массив потоков разделяется на блоки Потоки внутри блока взаимодействуют через разделяемую память Потоки в разных блоках не могут синхронизироваться Позволяет программам прозрачно масштабироваться Блок 0 Блок 1 Блок N-1 threadID 0 1 2 3 4 5 6 01234567 01234567 7 … … … float x = input[threadID]; float x = input[threadID]; float x = input[threadID]; … float y = func(x); float y = func(x); float y = func(x); output[threadID] = y; output[threadID] = y; output[threadID] = y; … … … NVIDIA Confidential
  • 12. Прозрачная масштабируемость Блоки могут быть распределены на любой процессор Код на CUDA масштабируется на любое количество ядер Устройство B Устройство A SM SM SM SM SM SM Сетка блоков Блок 0 Блок 1 Блок 2 Блок 3 Блок 0 Блок 1 Блок 0 Блок 1 Блок 2 Блок 3 Блок 4 Блок 5 Блок 2 Блок 3 Блок 4 Блок 5 Блок 6 Блок 7 Блок 6 Блок 7 Блок 4 Блок 5 Блок 6 Блок 7 NVIDIA Confidential
  • 13. Гетерогенная модель вычислений Последовательная программа, с параллельными секциями Последовательный код исполняется на CPU Параллельный код исполняется блоками потоков на множестве вычислительных модулей GPU Последовательный код Параллельное ядро A … KernelA<<< nBlk, nTid >>>(args); Последовательный код Параллельное ядро B … KernelB<<< nBlk, nTid >>>(args); NVIDIA Confidential
  • 14. Расширения C для CUDA Стандартный C код Код на CUDA C __global__ void void saxpy_parallel(int n, float a, float *x, float *y) saxpy_serial(int n, float a, float *x, float *y) { int i = blockIdx.x*blockDim.x + { threadIdx.x; for (int i = 0; i < n; ++i) if (i < n) y[i] = a*x[i] + y[i]; y[i] = a*x[i] + y[i]; } } // Вызов параллельного ядра SAXPY с размером // блока в 256 потоков // Вызов последовательного int nblocks = (n + 255) / 256; // ядра SAXPY saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y); saxpy_serial(n, 2.0, x, y); NVIDIA Confidential 1
  • 15. Уровни параллелизма в CUDA Параллелизм на уровне потоков Каждый поток – независимая нить исполнения Параллелизм на уровне данных По потокам внутри блока По блокам внутри ядра Параллелизм на уровне задач Блоки исполняются независимо друг от друга NVIDIA Confidential
  • 16. Пространства памяти CUDA Локальная память Доступна в пределах потока Сетка блоков Глобальная память Хранит исходные данные и Блок (0, 0) Блок(1, 0) результаты вычислений Разделяемая память Разделяемая память Внешняя к GPU, большой объем Регистры Регистры Регистры Регистры Разделяемая память Доступна всем потокам в блоке Поток(0, 0) Поток (1, 0) Поток(0, 0) Поток (1, 0) Небольшой объем, находится на кристалле процессора Высокая скорость доступа Локальная Локальная Локальная Локальная память память память память Память CPU (host) Host Глобальная память Недоступна потокам CUDA напрямую DRAM NVIDIA Confidential 2008 © NVIDIA Corporation
  • 17. Ресурсы для разработчиков Инструментарий разработчика CUDA (CUDA toolkit) Компилятор и библиотеки Версии для Win32/64, MacOS, Linux доступны для загрузки Набор примеров и средств разработки (CUDA SDK) Готовые решения на CUDA Примеры использования Библиотеки и инструменты для отладки и оптимизации CUFFT, CUBLAS, CUDPP NVIDIA Confidential
  • 18. GPU как параллельный процессор GPU обладает массивно-параллельной вычислительной архитектурой Выступает в роли сопроцессора для CPU Имеет доступ к выделенной памяти с широкой полосой пропускания 80+ GB/s Исполняет множество потоков одновременно Параллельные секции приложения исполняются как вычислительные ядра Каждое ядро исполняет множество потоков Потоки GPU легковесны Очень низкие накладные расходны на создание Мгновенное переключение контекстов GPU использует тысячи потоков для эффективности NVIDIA Confidential 2008 © NVIDIA Corporation
  • 19. Архитектура NVIDIA Tesla 10 240 процессоров работают на частоте 1.5 GHz: 1 TFLOPS в пике 128 потоков на процессор: 30,720 потоков на чипе SM I-Cache MT Issue C-Cache SP SP Host CPU Bridge System Memory SP SP Tesla T10 Work Distribution SP SP `` `` `` `` `` `` `` `` `` `` SMC SMC SMC SMC SMC SMC SMC SMC SMC SMC I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache I-Cache MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue MT Issue C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache C-Cache SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP ` SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SP SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU SFU DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP DP Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Shared Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Memory Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Texture Unit Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 Tex L1 DP Interconnection Network ROP L2 ROP L2 ROP L2 ROP L2 ROP L2 ROP L2 ROP L2 ROP L2 Shared Memory DRAM DRAM DRAM DRAM DRAM DRAM DRAM DRAM NVIDIA Confidential
  • 20. Мультипроцессор NVIDIA Tesla 10 SM I-Cache RISC-подобная скалярная система команд MT Issue Многопоточное исполнение инструкций C-Cache Поддержка до 1024 потоков SP SP TPC Аппаратный менеджер потоков Geometry Controller SMC 8 скалярных АЛУ I-Cache I-Cache I-Cache MT Issue MT Issue MT Issue SP SP C-Cache C-Cache C-Cache SP SP SP SP SP SP Операции с одинарной точностью IEEE-754 SP SP SP SP SP SP SP SP SP SP SP SP Целочисленные операции SP SP SP SP SP SP SP SP SFU SFU SFU SFU SFU SFU DP DP DP 16K 32-х битных регистров Shared Shared Shared Memory Memory Memory Texture Unit SP SP Tex L1 2 АЛУ для специальных операций sin/cos/rcp/rsq SFU SFU 1 АЛУ для операций с двойной точностью Поддерживает FMA DP 16KB разделяемой памяти Shared Memory NVIDIA Confidential
  • 21. Мифы о вычислениях на GPU Миф 1: GPU исполняет программы как графические шейдеры NVIDIA Confidential
  • 22. Мифы о вычислениях на GPU Миф 1: GPU исполняет программы как графические шейдеры Это не так – CUDA использует вычислительные ресурсы GPU напрямую NVIDIA Confidential
  • 23. Мифы о вычислениях на GPU Миф 2: Архитектурно, GPU представляют из себя Очень широкие SIMD-машины (1000) ... … с крайне неэффективной поддержкой ветвления ... … которые ориентированые на обработку 4-х мерных векторов NVIDIA Confidential
  • 24. Мифы о вычислениях на GPU Миф 2: Архитектурно, GPU представляют из себя Очень широкие SIMD-машины (1000) ... … с крайне неэффективной поддержкой ветвления ... … которые ориентированые на обработку 4-х мерных векторов Современные GPU используют SIMT исполнение, с размером блока (warp) в 32 элемента и скалярными потоками NVIDIA Confidential
  • 25. Мифы о вычислениях на GPU Миф 3: GPU неэффективны с точки зрения энергопотребления NVIDIA Confidential
  • 26. Мифы о вычислениях на GPU Миф 3: GPU неэффективны с точки зрения энергопотребления Показатель производительность/ватт для GPU от 4 до 20 раз выше чем у CPU NVIDIA Confidential
  • 27. Мифы о вычислениях на GPU Миф 4: GPU не используют “настоящую” арифметику с плавающей точкой NVIDIA Confidential
  • 28. Мифы о вычислениях на GPU Миф 4: GPU не используют “настоящую” арифметику с плавающей точкой GPU поддерживают стандарт IEEE-754 Сравнимы с другими вычислительными устройствами Поддерживаются вычисления с двойной точностью NVIDIA Confidential
  • 29. Поддержка операций с двойной точностью NVIDIA GPU SSE2 Cell SPE Поддержка стандарта IEEE 754 IEEE 754 IEEE 754 Режимы округления для FADD и FMUL Все 4 режима IEEE: rtne, zero, inf, -inf Все 4 режима IEEE: rtne, zero, inf, -inf Только zero/truncate Обработка денормализованных чисел С полной скоростью Поддерживается, 1000+ циклов Не поддерживается Поддержка NaN Да Да Нет Поддержка переполнений и Да Да Бесконечности отсутствуют бесконечностей Флаги Нет Да Некоторые Да Нет Да FMA Извлечение квадратного корня Эмуляция на основе FMA Аппаратная поддержка Программная эмуляция Деление Эмуляция на основе FMA Аппаратная поддержка Программная эмуляция Точность операции 1/x 12 бит 12 бит 24 bit Точность операции 1/sqrt(x) 12 бит 12 бит 23 bit Точность операций log2(x) и 2^x Нет Нет 23 bit NVIDIA Confidential 2
  • 30. Вопросы ? GPU CPU Oil & Gas Finance Medical Biophysics Numerics Audio Video Imaging NVIDIA Confidential 2008 © NVIDIA Corporation
  • 33. FFT Performance: CPU vs GPU (8-Series) NVIDIA Tesla C870 GPU (8-series GPU) 1D Fast Fourier Transform Quad-Core Intel Xeon CPU 5400 Series 3.0GHz, On CUDA In-place, complex, single precision 90 80 70 GFLOPS 60 CUFFT 50 2.x CUFFT 40 1.1 • Intel FFT numbers 30 calculated by repeating 20 same FFT plan • Real FFT performance is 10 ~10 GFlops 0 Transform Size (Power of 2) Source for Intel data : http://www.intel.com/cd/software/products/asmo-na/eng/266852.htm NVIDIA Confidential
  • 34. Single Precision BLAS: CPU vs GPU (10-series) CUBLAS: CUDA 2.0b2, Tesla C1060 (10-series GPU) BLAS (SGEMM) on CUDA ATLAS 3.81 on Dual 2.8GHz Opteron Dual-Core 350 CUDA 300 ATLAS 1 250 Thread GFLOPS 200 150 100 50 0 Matrix Size NVIDIA Confidential
  • 35. Double Precision BLAS: CPU vs GPU (10-series) CUBLAS CUDA 2.0b2 on Tesla C1060 (10-series) BLAS (DGEMM) on CUDA ATLAS 3.81 on Intel Xeon E5440 Quad-core, 2.83 GHz 70 CUBLAS 60 50 GFLOPS 40 30 20 10 0 Matrix Size NVIDIA Confidential
  • 36. Folding@Home Distributed computing to study protein folding Alzheimer’s Disease Huntington’s Disease Cancer Osteogenesis imperfecta Parkinson’s Disease Antibiotics CUDA client available now! 36 NVIDIA Confidential 2008 © NVIDIA Corporation
  • 37. Molecular Dynamics : GROMACS Folding@Home 600 450 511 ns/day 369 300 4 150 170 4 100 0 CPU PS3 ATI GPU Tesla 8 Tesla 10 NVIDIA GPUS NVIDIA Confidential 2008 © NVIDIA Corporation
  • 38. National Center for Atmospheric Research Weather Research and Forecast (WRF) model 4000+ registered users worldwide First-ever release with GPU acceleration 12km CONUS WRF benchmark Running on NCSA CUDA cluster Adapted 1% of WRF code to CUDA Resulted in 20% overall speedup Ongoing work to adapt more of WRF to CUDA NVIDIA Confidential 2008 © NVIDIA Corporation
  • 39. Astrophysics N-Body Simulation 12+ billion body-body interactions per second 300 GFLOP/s+ on GeForce 8800 Ultra http://progrape.jp/cs/ 1-5 GFLOP/s on single-core CPU Faster than custom GRAPE-6Af n-body computer http://www.astrogpu.org/ NVIDIA Confidential 2008 © NVIDIA Corporation
  • 40. Linear Scaling with Multiple GPUs Oil and Gas Computing: Reverse Time Migration Hand Optimized SSE Versus CUDA C 200 160 GFLOPS 120 80 40 0 1 4 8 128 256 384 Number of Cores X86 CPU NVIDIA GPU NVIDIA Confidential
  • 41. Cambridge University Turbomachinery CFD Partial differential equations on structured grids NVIDIA GPUs enable faster design cycles and new science Up to 10 million points on a single GPU Scales to many GPUs using MPI 10x – 20x speedup Intel Core2 Quad 2.33 GHz CFD analysis of a jet engine fan, courtesy of Vicente Jerez Fidalgo, Whittle Lab Slide courtesy of Tobias Brandvik and Graham Pullan, Whittle Lab NVIDIA Confidential 2008 © NVIDIA Corporation