SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Архитектура
NVIDIA Kepler


Производительность. Эффективность. Доступность.
                                                  1
Tesla: в 2-3 раза быстрее каждые 2 года
                     16
                                                             Maxwell

                     14
DP GFLOPS per Watt




                     12

                     10

                      8

                      6                           Kepler

                      4
                                       Fermi
                      2     T10


                             2008       2010       2012        2014
                                                                       2
Kepler



         3
Kepler
САМЫЙ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА


                               SMX

                             Hyper-Q

                        Dynamic Parallelism

                                              4
Kepler: Скорость и Эффективность

     SM                               SMX
     M2090                               K20




                     3x
                                   УПРАВЛЯЮЩАЯ ЛОГИКА
УПРАВЛЯЮЩАЯ ЛОГИКА




                     Perf / Watt
    32 ядра                           192 ядра
                                                        5
1 Петфлоп
Всего в 10 стойках
     400 кВт

                     6
Hyper-Q
CPU ядра одновременно запускают задачи на Kepler
             FERMI                                KEPLER
     1 MPI задача одновременно             32 MPI задачи одновременно




                                                                        7
Hyper-Q
Максимальная утилизация GPU, сокращение времени простоя CPU

                   100                                 100




                                    Утилизация GPU %
Утилизация GPU %




                   50                                  50




                    0                                   0
                         Time                                Time   8
Dynamic Parallelism
GPU адаптируется к данным, динамически порождая новые потоки

   CPU      Fermi GPU            CPU        Kepler GPU




                                                          9
Dynamic Parallelism
Программирование на GPU проще и доступнее
 Слишком грубо   Слишком мелко   Как надо




                                            10
Tesla K10                      Tesla K20




     3x одинарная точность              3x двойная точность

1.8x пропусная способность памяти   Hyper-Q, Dynamic Parallelism

Обработка изображений, сигналов,    CFD, FEA, финансы, физика
        сейсморазведка
            Уже доступно                Доступно в Q4 2012
                                                                   11
Tesla K10
Тоже потребление, 2x производительность Fermi
  Product Name            M2090                  K10
GPU Architecture           Fermi           Kepler GK104
# of GPUs                    1                    2
                                        Board          Per GPU
Single Precision Flops     1.3 TF      4.58 TF         2.29 TF
Double Precision Flops    0.66 TF     0.190 TF         0.095 TF
# CUDA Cores                512         3072               1536
Memory size                6 GB         8 GB               4GB
Memory BW (ECC off)      177.6 GB/s   320 GB/s         160GB/s
PCI-Express                Gen 2      Gen 3 (Gen 2 compatible)
Board Power              225 watts             225 watts


                                                                  12
K10 для нефтегаза             2
                                  сейсмоанализ

                            1.5
                              1
                            0.5
                              0




   • 1.8X симуляций в день для
     более точных моделей
   • Ниже риски и выше надежность
   • 2X GPU в том же формате
                                                 13
K10 для обороны
                                       Числовая аналитика
                                2
                              1.5
                                1
                              0.5
                                0
                                    M2090         k10



• 1.9X вычислений в день для более точных моделей
• Быстрее аналитика и точнее решения
• 2X GPU в том же формате


                                                            14
K10 для биоинформатики
                          3
                        2.5
                          2
                        1.5
                          1
                        0.5
                          0




 • 2.2X симуляций для приложений МД
 • Большие эксперименты на меньших кластерах
 • 2X GPU в том же формате

                                              Gromacs 4.6 pre-beta version
                               * 2 instances of AMBER 12 (with beta patch)
                                                                    15
Tesla K10 vs M2090: 2x производительность / Ватт
   2.50




   2.00




   1.50




   1.00




   0.50




   0.00
           Seismic     LAMMPS   NAMD   AMBER*        Radio         Nbody        Defense
          Processing                              Astronomy                  (Integer Ops)
                                                Cross-Correlator

                                                             * 2 instances of AMBER running JAC   16
118 коммерческих приложений ускоряются на GPU




                  www.nvidia.com/teslaapps
                                             17
MSC Nastran цена/производительность
                 решения MSC Nastran 2012 and Model 3.4M DOF
                  NOTE: Based on

                                                                                                                                  Extra 13% cost
                                              Results from PSG cluster node (fs0), 2x Nehalem 2.27GHz,
                                         6                                                                                          yields 160%
Factors Gain Over Base License Results




                                              96GB memory, Linux/CentOS; 2x Tesla C2050, CUDA 4.0
                                                                                                                                    performance
                                                                                                                                   (over 8 cores)                   *
                                                                                                                                                    Solution Cost Basis
                                                                                                                                                    - Linear Structures Package
                                         5        CPU Speed-up                                                              5.3
                                                                                                                                                      (Base SMP license)
                                                  GPU Speed-up                                              4.6
                                         4        Solution Cost
                                                                                                                                                    - Expert Package
                                                                                                                                                    (Nonlinear)
                                         3                                             3.3                                                          - Implicit HPC Package
                                                                                                                                                      (DMP Network License)
                                         2                         2.6                                                                              - GPU License
                                                                                                                                                    - $10K for System cost
                                         1                                                   1.24                                 1.4               - $4K for 2x Tesla 20-series
                                               1.0 1.0                   1.0                                      1.13
                                                                                                                                                    Performance Basis
                                         0                                                                                                          SOL101 Model:
                                                                                                                                                    - 3.4M DOF
                                                                                                                                                    - Stress analysis
                                             Nastran SMP       Nastran SMP         Nastran DMP            Nastran SMP     Nastran DMP               - Direct sparse
                                               License           4 Cores             8 Cores             + GPU License + GPU License
                                               1 Core                                                    1 Core + 1 GPU 2 Cores + 2 GPUs            * 1 year lease for SW pricing
                                                                                                                                                                            18
Программирование GPU



                       19
20
NVIDIA cuBLAS     NVIDIA cuRAND      NVIDIA cuSPARSE        NVIDIA NPP




  Vector Signal    GPU Accelerated   Matrix Algebra on
Image Processing    Linear Algebra   GPU and Multicore      NVIDIA cuFFT




                    Sparse Linear       Building-block     C++ STL Features
  IMSL Library         Algebra       Algorithms for CUDA       for CUDA



                            Библиотеки для GPU
                            “Copy-paste” для ускорения приложений
                                                                              21
Директивы OpenACC
      CPU                        GPU



                                                          Простые указатели для
                                                              компилятора
Program myscience
   ... serial code ...
!$acc kernels                                            Компилятор параллелизует
                                                                   код
   do k = 1,n1
      do i = 1,n2
                                        OpenACC метки
         ... parallel code ...         для компилятора
      enddo

                                                         Работает на многоядерных
    enddo
!$acc end kernels
  ...
End Program myscience                                         CPU и массивно
  Исходный код                                              параллельных GPU
   на C/Fortran                                                                   22
Минимум усилий. Ощутимый результат


 Модель жизненного        Звезды и галактики             Нейросети для
цикла морской фауны       12.5 млрд лет назад        самообучаемых роботов
  Университет Мельбурна     Университет Гронингена       Университет Плимута




65x за 2 для              5.6x за 5 дней             4.7x за 4 часа
                                                                               23
Воркшоп по OpenACC
    в суперкомпьютерном центре Питсбурга


                   К концу второго дня
получено 10-кратное ускорение одного из атмосферных ядер
                              6 директив

                    Technology Director
        National Center for Atmospheric
                       Research (NCAR)


                                                      24
Поддержка языков C, C++, Fortran моделью
 параллельного программирования CUDA
                              GPU Computing Applications
                    Libraries and Middleware
  cuFFT                                      PhysX
           LAPACK     NPP       VSIPL                       iray
 cuBLAS                                       Video                      MATLAB
            CULA     cuDPP       SVM                     Rendering
 cuRAND                                     OptiX Ray                   Mathematica
           MAGMA     Thrust   OpenCurrent               RealityServer
cuSPARSE                                     tracing




                                                                     Java
                                                                    Python                     Direct
     C++                  C                 Fortran                                                                              OpenCL           tm



                                                                   Wrappers                   Compute




                              NVIDIA GPU
                              CUDA Parallel Computing Architecture
                                                                                      OpenCL is trademark of Apple Inc. used under license to the Khronos Group25
                                                                                                                                                                Inc.
C для CUDA : C + «синтаксический сахар»
    void saxpy_serial(int n, float a, float *x, float *y)
    {
        for (int i = 0; i < n; ++i)
            y[i] = a*x[i] + y[i];
    }                                           Стандартный      код C
    // Invoke serial SAXPY kernel
    saxpy_serial(n, 2.0, x, y);


    __global__ void saxpy_parallel(int n, float a, float *x, float *y)
    {
        int i = blockIdx.x*blockDim.x + threadIdx.x;
        if (i < n) y[i] = a*x[i] + y[i];
    }
                                                Параллельный код         C
    // Invoke parallel SAXPY kernel with 256 threads/block
    int nblocks = (n + 255) / 256;
    saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y);

                                                                         26
NVIDIA делает платформу CUDA открытой благодаря LLVM

                                                      CUDA          Поддержка
 CUDA бэкенд теперь доступен для LLVM            C, C++, Fortran   новых языков
             компилятора

SDK включает документацию, примеры и
            верификатор                                  LLVM компилятор
                                                            для CUDA
     Возможность добавления
 поддержки CUDA в новые языки и
          процессоры                            NVIDIA       x86      Поддержка
                                                 GPUs       CPUs   Новых процессоров


                    Подробности
      http://developer.nvidia.com/cuda-source

                                                                                       27
Kepler: впервые полноценная поддержка GPUDirect™


 System                                                        System
 Memory      GDDR5    GDDR5               GDDR5     GDDR5      Memory
             Memory   Memory              Memory    Memory




 CPU         GPU1     GPU2                GPU2      GPU1        CPU


            PCI-e                                      PCI-e
                      Network   Network   Network
                       Card                Card



          Сервер 1                                  Сервер 2
                                                                        28
CUDA    в цифрах:
>375,000,000   CUDA GPU на рынке
  >1,000,000   скачиваний SDK
   >120,000    активных разработчиков
       >500    университетов преподают CUDA

                                              29
Что дальше?




              30
CUDA для ARM
                                                 Исследовательская платформа
            CUDA GPU         Tegra ARM CPU           4-х ядерный процессор
                                                     NVIDIA Tegra 3 на базе ARM
                                                     NVIDIA CUDA GPU
                                                     Gbit сеть

Набор для разработчиков                                   CUDA SDK

http://www.secoqseven.com/en/item/secocq7-mxm/
                                                       Доступно сейчас
                                                                            31

Weitere ähnliche Inhalte

Was ist angesagt?

11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)Smolensk Computer Science Club
 
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...Yandex
 
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)Mikhail Kurnosov
 
Что такое Postgresql (Максим Богук)
Что такое Postgresql (Максим Богук)Что такое Postgresql (Максим Богук)
Что такое Postgresql (Максим Богук)Ontico
 
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)Mikhail Kurnosov
 

Was ist angesagt? (7)

G1
G1G1
G1
 
11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)
 
Chronicle Map
Chronicle MapChronicle Map
Chronicle Map
 
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
 
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
 
Что такое Postgresql (Максим Богук)
Что такое Postgresql (Максим Богук)Что такое Postgresql (Максим Богук)
Что такое Postgresql (Максим Богук)
 
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
 

Ähnlich wie Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev

Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Ontico
 
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Cisco Russia
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Boris Kizko
 
Presentation Amd Cpu
Presentation Amd CpuPresentation Amd Cpu
Presentation Amd Cpuandrei145
 
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)Ontico
 
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Ontico
 
Программно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиПрограммно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиVsevolod Shabad
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningSkolkovo Robotics Center
 
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыОбработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыVsevolod Shabad
 
Нейронные сети в высокопроизводительных вычислениях
Нейронные сети в высокопроизводительных вычисленияхНейронные сети в высокопроизводительных вычислениях
Нейронные сети в высокопроизводительных вычисленияхSkolkovo Robotics Center
 
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievExtreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievVolodymyr Saviak
 
High performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиHigh performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиMUK
 
Aппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средAппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средYury Novozhilov
 
Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Boris Kizko
 
Новое поколение серверов Dell
Новое поколение серверов DellНовое поколение серверов Dell
Новое поколение серверов DellMUK
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
 
ETegro: решения для ЦОД
ETegro: решения для ЦОДETegro: решения для ЦОД
ETegro: решения для ЦОДMirantis IT Russia
 

Ähnlich wie Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev (20)

Nvidia hpc day 2011 kiev
Nvidia hpc day 2011 kievNvidia hpc day 2011 kiev
Nvidia hpc day 2011 kiev
 
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
 
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.
 
Nvidia Hpc Day Kiev Rus
Nvidia Hpc Day Kiev RusNvidia Hpc Day Kiev Rus
Nvidia Hpc Day Kiev Rus
 
Presentation Amd Cpu
Presentation Amd CpuPresentation Amd Cpu
Presentation Amd Cpu
 
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
 
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
 
Программно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиПрограммно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими данными
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learning
 
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыОбработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
 
Нейронные сети в высокопроизводительных вычислениях
Нейронные сети в высокопроизводительных вычисленияхНейронные сети в высокопроизводительных вычислениях
Нейронные сети в высокопроизводительных вычислениях
 
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievExtreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
 
High performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиHigh performance computing - принципы проектирования сети
High performance computing - принципы проектирования сети
 
Aппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средAппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих сред
 
Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Hpc 2.26.03.2013.
Hpc 2.26.03.2013.
 
Новое поколение серверов Dell
Новое поколение серверов DellНовое поколение серверов Dell
Новое поколение серверов Dell
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
ETegro: решения для ЦОД
ETegro: решения для ЦОДETegro: решения для ЦОД
ETegro: решения для ЦОД
 

Mehr von Volodymyr Saviak

Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievFujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievVolodymyr Saviak
 
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Volodymyr Saviak
 
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Volodymyr Saviak
 
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Hp cmu – easy to use cluster management utility @ hpcday 2012 kievHp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Hp cmu – easy to use cluster management utility @ hpcday 2012 kievVolodymyr Saviak
 
Mellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievMellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievVolodymyr Saviak
 
Alekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievAlekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievVolodymyr Saviak
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievVolodymyr Saviak
 
Kindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievKindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievVolodymyr Saviak
 
Mellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievMellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievVolodymyr Saviak
 
Massive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievMassive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievVolodymyr Saviak
 

Mehr von Volodymyr Saviak (14)

Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievFujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
 
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
 
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
 
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Hp cmu – easy to use cluster management utility @ hpcday 2012 kievHp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
 
Mellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievMellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kiev
 
Hp kiev hpcday_20121012
Hp kiev hpcday_20121012Hp kiev hpcday_20121012
Hp kiev hpcday_20121012
 
Apc hpc day 2011 kiev
Apc hpc day 2011 kievApc hpc day 2011 kiev
Apc hpc day 2011 kiev
 
SGI HPC DAY 2011 Kiev
SGI HPC DAY 2011 KievSGI HPC DAY 2011 Kiev
SGI HPC DAY 2011 Kiev
 
Golovinskiy hpc day 2011
Golovinskiy hpc day 2011Golovinskiy hpc day 2011
Golovinskiy hpc day 2011
 
Alekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievAlekseev hpc day 2011 Kiev
Alekseev hpc day 2011 Kiev
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
 
Kindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievKindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 Kiev
 
Mellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievMellanox hpc day 2011 kiev
Mellanox hpc day 2011 kiev
 
Massive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievMassive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kiev
 

Kürzlich hochgeladen (9)

2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 

Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev

  • 2. Tesla: в 2-3 раза быстрее каждые 2 года 16 Maxwell 14 DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 2
  • 3. Kepler 3
  • 4. Kepler САМЫЙ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА SMX Hyper-Q Dynamic Parallelism 4
  • 5. Kepler: Скорость и Эффективность SM SMX M2090 K20 3x УПРАВЛЯЮЩАЯ ЛОГИКА УПРАВЛЯЮЩАЯ ЛОГИКА Perf / Watt 32 ядра 192 ядра 5
  • 6. 1 Петфлоп Всего в 10 стойках 400 кВт 6
  • 7. Hyper-Q CPU ядра одновременно запускают задачи на Kepler FERMI KEPLER 1 MPI задача одновременно 32 MPI задачи одновременно 7
  • 8. Hyper-Q Максимальная утилизация GPU, сокращение времени простоя CPU 100 100 Утилизация GPU % Утилизация GPU % 50 50 0 0 Time Time 8
  • 9. Dynamic Parallelism GPU адаптируется к данным, динамически порождая новые потоки CPU Fermi GPU CPU Kepler GPU 9
  • 10. Dynamic Parallelism Программирование на GPU проще и доступнее Слишком грубо Слишком мелко Как надо 10
  • 11. Tesla K10 Tesla K20 3x одинарная точность 3x двойная точность 1.8x пропусная способность памяти Hyper-Q, Dynamic Parallelism Обработка изображений, сигналов, CFD, FEA, финансы, физика сейсморазведка Уже доступно Доступно в Q4 2012 11
  • 12. Tesla K10 Тоже потребление, 2x производительность Fermi Product Name M2090 K10 GPU Architecture Fermi Kepler GK104 # of GPUs 1 2 Board Per GPU Single Precision Flops 1.3 TF 4.58 TF 2.29 TF Double Precision Flops 0.66 TF 0.190 TF 0.095 TF # CUDA Cores 512 3072 1536 Memory size 6 GB 8 GB 4GB Memory BW (ECC off) 177.6 GB/s 320 GB/s 160GB/s PCI-Express Gen 2 Gen 3 (Gen 2 compatible) Board Power 225 watts 225 watts 12
  • 13. K10 для нефтегаза 2 сейсмоанализ 1.5 1 0.5 0 • 1.8X симуляций в день для более точных моделей • Ниже риски и выше надежность • 2X GPU в том же формате 13
  • 14. K10 для обороны Числовая аналитика 2 1.5 1 0.5 0 M2090 k10 • 1.9X вычислений в день для более точных моделей • Быстрее аналитика и точнее решения • 2X GPU в том же формате 14
  • 15. K10 для биоинформатики 3 2.5 2 1.5 1 0.5 0 • 2.2X симуляций для приложений МД • Большие эксперименты на меньших кластерах • 2X GPU в том же формате Gromacs 4.6 pre-beta version * 2 instances of AMBER 12 (with beta patch) 15
  • 16. Tesla K10 vs M2090: 2x производительность / Ватт 2.50 2.00 1.50 1.00 0.50 0.00 Seismic LAMMPS NAMD AMBER* Radio Nbody Defense Processing Astronomy (Integer Ops) Cross-Correlator * 2 instances of AMBER running JAC 16
  • 17. 118 коммерческих приложений ускоряются на GPU www.nvidia.com/teslaapps 17
  • 18. MSC Nastran цена/производительность решения MSC Nastran 2012 and Model 3.4M DOF NOTE: Based on Extra 13% cost Results from PSG cluster node (fs0), 2x Nehalem 2.27GHz, 6 yields 160% Factors Gain Over Base License Results 96GB memory, Linux/CentOS; 2x Tesla C2050, CUDA 4.0 performance (over 8 cores) * Solution Cost Basis - Linear Structures Package 5 CPU Speed-up 5.3 (Base SMP license) GPU Speed-up 4.6 4 Solution Cost - Expert Package (Nonlinear) 3 3.3 - Implicit HPC Package (DMP Network License) 2 2.6 - GPU License - $10K for System cost 1 1.24 1.4 - $4K for 2x Tesla 20-series 1.0 1.0 1.0 1.13 Performance Basis 0 SOL101 Model: - 3.4M DOF - Stress analysis Nastran SMP Nastran SMP Nastran DMP Nastran SMP Nastran DMP - Direct sparse License 4 Cores 8 Cores + GPU License + GPU License 1 Core 1 Core + 1 GPU 2 Cores + 2 GPUs * 1 year lease for SW pricing 18
  • 20. 20
  • 21. NVIDIA cuBLAS NVIDIA cuRAND NVIDIA cuSPARSE NVIDIA NPP Vector Signal GPU Accelerated Matrix Algebra on Image Processing Linear Algebra GPU and Multicore NVIDIA cuFFT Sparse Linear Building-block C++ STL Features IMSL Library Algebra Algorithms for CUDA for CUDA Библиотеки для GPU “Copy-paste” для ускорения приложений 21
  • 22. Директивы OpenACC CPU GPU Простые указатели для компилятора Program myscience ... serial code ... !$acc kernels Компилятор параллелизует код do k = 1,n1 do i = 1,n2 OpenACC метки ... parallel code ... для компилятора enddo Работает на многоядерных enddo !$acc end kernels ... End Program myscience CPU и массивно Исходный код параллельных GPU на C/Fortran 22
  • 23. Минимум усилий. Ощутимый результат Модель жизненного Звезды и галактики Нейросети для цикла морской фауны 12.5 млрд лет назад самообучаемых роботов Университет Мельбурна Университет Гронингена Университет Плимута 65x за 2 для 5.6x за 5 дней 4.7x за 4 часа 23
  • 24. Воркшоп по OpenACC в суперкомпьютерном центре Питсбурга К концу второго дня получено 10-кратное ускорение одного из атмосферных ядер 6 директив Technology Director National Center for Atmospheric Research (NCAR) 24
  • 25. Поддержка языков C, C++, Fortran моделью параллельного программирования CUDA GPU Computing Applications Libraries and Middleware cuFFT PhysX LAPACK NPP VSIPL iray cuBLAS Video MATLAB CULA cuDPP SVM Rendering cuRAND OptiX Ray Mathematica MAGMA Thrust OpenCurrent RealityServer cuSPARSE tracing Java Python Direct C++ C Fortran OpenCL tm Wrappers Compute NVIDIA GPU CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group25 Inc.
  • 26. C для CUDA : C + «синтаксический сахар» void saxpy_serial(int n, float a, float *x, float *y) { for (int i = 0; i < n; ++i) y[i] = a*x[i] + y[i]; } Стандартный код C // Invoke serial SAXPY kernel saxpy_serial(n, 2.0, x, y); __global__ void saxpy_parallel(int n, float a, float *x, float *y) { int i = blockIdx.x*blockDim.x + threadIdx.x; if (i < n) y[i] = a*x[i] + y[i]; } Параллельный код C // Invoke parallel SAXPY kernel with 256 threads/block int nblocks = (n + 255) / 256; saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y); 26
  • 27. NVIDIA делает платформу CUDA открытой благодаря LLVM CUDA Поддержка CUDA бэкенд теперь доступен для LLVM C, C++, Fortran новых языков компилятора SDK включает документацию, примеры и верификатор LLVM компилятор для CUDA Возможность добавления поддержки CUDA в новые языки и процессоры NVIDIA x86 Поддержка GPUs CPUs Новых процессоров Подробности http://developer.nvidia.com/cuda-source 27
  • 28. Kepler: впервые полноценная поддержка GPUDirect™ System System Memory GDDR5 GDDR5 GDDR5 GDDR5 Memory Memory Memory Memory Memory CPU GPU1 GPU2 GPU2 GPU1 CPU PCI-e PCI-e Network Network Network Card Card Сервер 1 Сервер 2 28
  • 29. CUDA в цифрах: >375,000,000 CUDA GPU на рынке >1,000,000 скачиваний SDK >120,000 активных разработчиков >500 университетов преподают CUDA 29
  • 31. CUDA для ARM Исследовательская платформа CUDA GPU Tegra ARM CPU 4-х ядерный процессор NVIDIA Tegra 3 на базе ARM NVIDIA CUDA GPU Gbit сеть Набор для разработчиков CUDA SDK http://www.secoqseven.com/en/item/secocq7-mxm/ Доступно сейчас 31