2. § Gegründet 1992 – 25 Jahre Innovation
§ Supermicros ältester & größter globaler Partner — seit über 20 Jahren
§ Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie)
§ London HQ, Niederlassungen in London City, München, Mumbai,
Bangalore, New York. Weitere Expansion geplant.
§ Experten im Lösungs- und HPC-System-Design unter Verwendung von
Premium-Komponenten von Supermicro und ausgewählten Partnern
§ Supermicros Fastest Growing Partner
Über uns
3. § Cores, Cores und noch mal Cores
Multithreading, Multicore, Manycore – ein paar Grundlagen
§ Der Weg durch die Instanzen
AMD Epyc, Intel Skylake-SP, Intel Kaby Lake, IBM POWER, Nvidia Volta, Exoten
§ Ein kurzer Blick in die Glaskugel
§ Das Lieferprogramm von Boston
§ Zum Weiterlesen
Agenda
4. § Geschwindigkeitslücke CPU ⟷ Memory
anfangs Cache, dann mehr Cache, noch mehr Cache, später Parallelisierung
§ Dual-Core, Quad-Core ++
ab ca. 1970, IBM, CDC, Cray u. a.
§ Multithreading
2, 4, 6++ Threads
ähnliche Technologie bei allen
§ Herausforderung immer:
Synchronisation
Cache-Kohärenz
Taktfrequenz vs. Anzahl Cores
Warum die Cores immer mehr wurden (1)
5. curve shows transistor
count doubling every
two years
2,300
10,000
100,000
1,000,000
10,000,000
100,000,000
1,000,000,000
2,600,000,000
1971 1980 1990 2000 2011
Date of introduction
4004
8008
8080
RCA 1802
8085
8088
Z80
MOS 6502
6809
8086
80186
6800
68000
80286
80386
80486
Pentium
AMD K5
Pentium II
Pentium III
AMD K6
AMD K6-III
AMD K7
Pentium 4
Barton Atom
AMD K8
Itanium 2 Cell
Core 2 Duo
AMD K10
Itanium 2 with 9MB cache
POWER6
Core i7 (Quad)
Six-Core Opteron 2400
8-Core Xeon Nehalem-EX
Quad-Core Itanium Tukwila
Quad-core z196
8-core POWER7
10-Core Xeon Westmere-EX
16-Core SPARC T3
Six-Core Core i7
Six-Core Xeon 7400
Dual-Core Itanium 2
AMD K10
Microprocessor Transistor Counts 1971-2011 & Moore's Law
Transistorcount
§ Verbesserung im Herstellungsprozess
immer kleinere Strukturbreiten
aktuell 14 nm, 10 nm, 7 nm (wenige Atomlagen)
menschliches Haar: 40.000 nm (!)
§ Mooresches Gesetz
Etwa alle 18 Monate verdoppelt sich die Anzahl
der Schaltkreiselemente eines integrierten
Schaltkreises.
Gordon Moore, 1965 (Mitgründer von Intel)
§ Also: immer mehr Funktion auf gleicher
Chip-Fläche (Cache, Cores, SoC)
Warum die Cores immer mehr wurden (2)
Bild:ByWgsimon-Ownwork,CCBY-SA3.0
https://commons.wikimedia.org/w/index.php?curid=15193542
6. § Die PS müssen ja auch
irgendwie auf die Straße.
§ Das Fahrwerk muss zum
Motor passen.
§ Kunst, Magie und Erfahrung
der Board- und System-
hersteller
Aber! Gigahertz und Multicore ist nicht alles!
11. § Wechsel Ring ➛ Mesh
ähnlich Xeon Phi aka KNL
Ring für große Anzahl Cores ungeeignet
Mesh hat höhere Transferraten bei
geringerer Latenz
§ Neue Bezeichnungen
Bronze, Silver, Gold, Platinum
§ Neue Buchstaben
SP ➛ Scalable Performance
F ➛ Fabric OmniPath
P ➛ FPGA on Module
Intel Skylake-SP (2)
Bild: Intel
12. § 7. Generation Intel Core Architecture
Refresh soll noch in 2017 erscheinen
§ ähnlich zu Skylake („Modellpflege“)
höherer Takt, schnelleres Speed Shift, verbesserte Grafik-Funktionen, bis zu 16x PCIe
3 Lanes direkt an der CPU, Support für Intel Optane (3D XPoint Memory)
§ Server-Modelle
4-Core, 14 nm, 8 MB L3 Cache, 3...4 GHz
unteres Server-Segment, preisgünstiger Einstieg, Cloud-Anbieter
§ Fokus der CPU auf Ultrabooks, Notebooks, Desktop
Intel Kaby Lake
13. § Coffee Lake (?)
14 nm, 6 Cores max, integrierte Grafik, Desktop/Mobile
§ Cannonlake (?)
10 nm, Die-Shrink von Kaby Lake, ca. Ende 2017, Fertigung läuft zwischenzeitlich
§ Ice Lake
ca. 2019, Prozess bleibt (10 nm), Mikroarchitektur wird überarbeitet (neue Features
etc.), Designphase abgeschlossen
Und was kommt nach Kaby Lake?
14. § Xeon Phi Knights Mill
Manycore-Architektur, Optimierungen für AI, ca. Ende 2017, ca. 4x Performance FP16
zu KNL
§ Altera Arria 10
FPGA Koprozessor-Karte, „Deep Learning Inference Accelerator“ (DLIA), soll alternativ
auch integriert mit Broadwell in einem Gehäuse kommen
§ Nervana Engine
Codename Lake Crest, CPU + Memory auf Interposer-Board, PCI-Karte, je CPU 12x
100 GB/s Highspeed Link, ca. 1 TB/s (!) Memory-Bandbreite (4 GB DVD in 4 µs)
§ AI/Machine Learning, „Acqui-Hire“
Aber Intel kann noch mehr!
15. § 12 Core / 96 Threads max
22 nm, Markteinführung 2014
Modelle mit 4, 6, 8, 10, 12 Core
§ Abstraktion Memory-Interface, buffered Memory ➛ Centaur
CPU ⟷ Centaur ist festgelegt und unter IBM-Kontrolle
Centaur ⟷ DIMM ist flexibel und „leicht“ änderbar.
3x 9.6 GB/s je Centaur @ 40 ns Latenz, 2:1 read:write
max. 8 Centaur-Interfaces je CPU
§ Coherent Accelerator Processor Interface (CAPI) (Power 8+)
Interconnect auf Basis PCIe 3.0
kann auch für NVLink genutzt werden (➛ Nvidia P100/V100)
IBM Power 8
16. § 24 Core, SMT4 und SMT8
14 nm, 4 GHz max., 120 MB L3 Cache (!),
8 TB RAM je Sockel, ca. 2. HJ 2017
SMT4: Linux Ecosystem optimized
SMT8: PowerVM Ecosystem (=AIX)
§ ScaleOut (SO) vs. ScaleUp (SU)
SO: 8x DDR4, 4 TB max. (256 GB Module),
optimiert auf 2 Sockel
SU: 8x Centaur Buffered Memory / Sockel,
128 MB L4 Cache (16 MB/Centaur),
optimiert für 4+ Sockel
IBM Power 9 (1)
Bild: IBM
17. § PCIe Gen4
48 Lanes á 16 Gbit/s (Σ96 GB/s)
PCIe Gen3: 8 Gbit/s je Lane
§ IBM BlueLink
48 Lanes á 25 Gbit/s (Σ150 GB/s)
lässt sich z. B. als NVLink 2 betreiben
auch als FPGA Connect denkbar
IBM Power 9 (2)
Bild:IBM
18. § 80 (84) SM Modules
Streaming Multiprocessor
64 CUDA-Cores
8 Tensor-Cores
§ Tensor Core
D = A×B + C
(Matrix × Matrix) + Matrix
Kern des grundlegenden Algorithmus bei Machine Learning
„MAC“-Operation
§ GP100 ➛ GV100
ca. 9.3x schneller bei AI wg. Tensor-Cores
Nvidia Volta (1)
Bild:Nvidia
19. § 5120 CUDA-Cores
640 Tensor-Cores
12 nm, 815 mm²
§ 1.455 GHz
300 W TDP
§ ab Q3/2017
Nvidia Volta (2)
Bild: Nvidia
20. § 1x GV100 + 4x HBM2 auf Interposer Board ➛ V100
Modul für Mainboard (NVLink 2)
PCIe-Karte
§ 900 GB/s Memory Throughput @ HBM2 (ca. 10...30 ns Latenz)
§ NVLink 2
6 Links / GPU, á 50 GB/s (beide Richtungen)
Kohärenz, atomic transfers
GPU ⟷ GPU (Boston ANNA) oder GPU ⟷ CPU (IBM Power 8+ und Power 9)
Nvidia Volta (3)
21. § Cavium Thunder X-2
54x ARM64 Core, Microsoft Windows Server verfügbar (Cloud only)
§ NEC Aurora
Vektor-CPU als PCIe-Karte mit HBM2 Memory, voraussichtlich 8...10 Core
§ Google TPU
Tensor Processing Unit, 65536x 8-Bit Integer Units
spezialisiert auf MAC-Operationen
§ Intel Kittson (IA64)
letzter jemals gebauter Itanium, 4-/8-Core, 2.66 GHz max, HP-UX
§ Oracle SPARC S7/M7, Fujitsu SPARC64 XII
Crypto Units (wire speed), teilweise SoC, Memory Security, „Software in Silicon“
Exotik
22. § CPUs und GPUs als Einzelstücke (auch größere Mengen)
Intel, AMD, Nvidia
§ Mainboards passend für AMD- oder Intel-CPUs
Supermicro
§ Komplettsysteme mit AMD- oder Intel-CPUs
§ komplette Palette NVidia GPUs
§ Boston ANNA Machine Learning Appliance
Nvidia P100/V100
§ Systeme mit IBM Power 8+ und Nvidia P100 (NVlink)
Bei Boston derzeit erhältlich
23. § Koprozessoren für AI/Machine Learning
FPGA, GPGPU, Tensor-Einheiten in „normaler“ CPU
§ persistentes Memory
NVMeoF / NVDIMM hat Latenzen nahe DIMMs
„Storage Class Memory“ (SCM)
§ SoC
I/O möglichst nahe an der CPU, hohe Bandbreite, geringe Latenz
§ Software in Silicon
Funktionseinheiten für spezielle Anwendungsfälle
Glaskugelkaffeesatz
24. § c‘t Prozessorgeflüster
zweiwöchentliche Kolumne, auch online (kostenfrei)
§ The Register und The Next Platform
https://www.theregister.co.uk
https://www.nextplatform.com/
§ Golem
https://www.golem.de
§ Fach- und Lehrbücher zu Prozessor- und Computerarchitektur
nachfragen bei wolfgang.stief@boston-it.de
Zum Weiterlesen
25. Werbeblock – Boston Solution Day 2017
§ Mittwoch, 28. Juni 2017, Gutsgasthof Stangl, Neufarn bei Anzing
https://www.boston-it.de/news/events/uebersicht-bstd17/
§ Fachvorträge und Ausstellung
- Erfolgreiche IoT-Geschäftsmodelle – Chancen & Gestaltungsoptionen
- Blockchain & Crypto Währungen
- Neues aus den Boston Labs
- NDA Showroom: Intel Purley Plattform, IBM Power mit Nvidia GPU
u. a.