CPU Update Juni 2017

Boston Webinar
CPU Update – Was tut sich bei den Rechenknechten?
Wolfgang Stief
Senior Consultant

§  Gegründet 1992 – 25 Jahre Innovation
§  Supermicros ältester & größter globaler Partner — seit über 20 Jahren
§  Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie)
§  London HQ, Niederlassungen in London City, München, Mumbai,
Bangalore, New York. Weitere Expansion geplant.
§  Experten im Lösungs- und HPC-System-Design unter Verwendung von
Premium-Komponenten von Supermicro und ausgewählten Partnern
§  Supermicros Fastest Growing Partner
Über uns

§  Cores, Cores und noch mal Cores
Multithreading, Multicore, Manycore – ein paar Grundlagen
§  Der Weg durch die Instanzen
AMD Epyc, Intel Skylake-SP, Intel Kaby Lake, IBM POWER, Nvidia Volta, Exoten
§  Ein kurzer Blick in die Glaskugel
§  Das Lieferprogramm von Boston
§  Zum Weiterlesen
Agenda

§  Geschwindigkeitslücke CPU ⟷ Memory
anfangs Cache, dann mehr Cache, noch mehr Cache, später Parallelisierung
§  Dual-Core, Quad-Core ++
ab ca. 1970, IBM, CDC, Cray u. a.
§  Multithreading
2, 4, 6++ Threads
ähnliche Technologie bei allen
§  Herausforderung immer:
Synchronisation
Cache-Kohärenz
Taktfrequenz vs. Anzahl Cores
Warum die Cores immer mehr wurden (1)

curve shows transistor
count doubling every
two years
2,300
10,000
100,000
1,000,000
10,000,000
100,000,000
1,000,000,000
2,600,000,000
1971 1980 1990 2000 2011
Date of introduction
4004
8008
8080
RCA 1802
8085
8088
Z80
MOS 6502
6809
8086
80186
6800
68000
80286
80386
80486
Pentium
AMD K5
Pentium II
Pentium III
AMD K6
AMD K6-III
AMD K7
Pentium 4
Barton Atom
AMD K8
Itanium 2 Cell
Core 2 Duo
AMD K10
Itanium 2 with 9MB cache
POWER6
Core i7 (Quad)
Six-Core Opteron 2400
8-Core Xeon Nehalem-EX
Quad-Core Itanium Tukwila
Quad-core z196
8-core POWER7
10-Core Xeon Westmere-EX
16-Core SPARC T3
Six-Core Core i7
Six-Core Xeon 7400
Dual-Core Itanium 2
AMD K10
Microprocessor Transistor Counts 1971-2011 & Moore's Law
Transistorcount
§  Verbesserung im Herstellungsprozess
immer kleinere Strukturbreiten
aktuell 14 nm, 10 nm, 7 nm (wenige Atomlagen)
menschliches Haar: 40.000 nm (!)
§  Mooresches Gesetz
Etwa alle 18 Monate verdoppelt sich die Anzahl
der Schaltkreiselemente eines integrierten
Schaltkreises.
Gordon Moore, 1965 (Mitgründer von Intel)
§  Also: immer mehr Funktion auf gleicher
Chip-Fläche (Cache, Cores, SoC)
Warum die Cores immer mehr wurden (2)
Bild:ByWgsimon-Ownwork,CCBY-SA3.0
https://commons.wikimedia.org/w/index.php?curid=15193542

§  Die PS müssen ja auch
irgendwie auf die Straße.
§  Das Fahrwerk muss zum
Motor passen.
§  Kunst, Magie und Erfahrung
der Board- und System-
hersteller
Aber! Gigahertz und Multicore ist nicht alles!

§  32 Core / 64 Threads (max)
Zen Architektur, 7 nm
gleicher Core wie AMD Ryzen
§  8 Memory Channels / Sockel
16 DIMMs / Sockel (derzeit 2 TB)
8x 21.6 GB/s Memory Bandwidth
(Skylake-EP: 127.8 GB/s total)
§  128 PCIe 3.0 Lanes / Sockel
2-Sockel-System: 64 Lanes für
Interconnect/CPU (Inﬁnity Fabric)
§  Launch: 20. Juni 2017
AMD Epyc (aka Naples) (1)

Bild: AMD

§  Multichip Modul (MCM)
Inﬁnite Fabric: cache coherent Hypertransport
§  8/16/24/32 Core Modelle
kommen alle als MCM
alle Modelle haben volle Memory Bandbreite
balanced architecture über 1- und 2-Sockel-Systeme
§  nur AVX128 (Intel AVX256/512)
deshalb schlechtere LINPACK-Leistung als Xeon
AMD: rechenintensive Aufgaben an GPU auslagern
§  Security Prozessor
Memory Crypt (z. B. persistenter Hauptspeicher)

Bild:AMDBild:AMD

§  SoC Design
NVMe Support on Chip
Server Controller Hub (statt PCH)
§  +40% SPECint, +60% SPECfp
im Vergleich zu Intel E5-2699Av4
1 ➛ 2 Sockel: 1.98x Performance
§  neuartige Branch Prediction
nutzt Techniken neuronaler Netze für
genauere Sprungvorhersagen
falsche Vorhersagen sind „teuer“
§  Next: Zen 2 „Rome“ und Zen 3

§  28 Core, 112 Threads max
2.5 GHz / 3.8 GHz (Turbo) max
§  1 MB L2 Cache je Core
Broadwell-EP: 256 kB
§  38.5 MB L3 Cache (max)
Xeon Platinum 8180
§  AVX512
Vektor-Einheit, SIMD, Gleitkomma-
Berechnungen
§  Modelle mit integriertem I/O
OmniPath (bisher KNL only), Ethernet
Intel Skylake-SP (1)

Bild:Intel

§  Wechsel Ring ➛ Mesh
ähnlich Xeon Phi aka KNL
Ring für große Anzahl Cores ungeeignet
Mesh hat höhere Transferraten bei
geringerer Latenz
§  Neue Bezeichnungen
Bronze, Silver, Gold, Platinum
§  Neue Buchstaben
SP ➛ Scalable Performance
F ➛ Fabric OmniPath
P ➛ FPGA on Module
Intel Skylake-SP (2)

Bild: Intel

§  7. Generation Intel Core Architecture
Refresh soll noch in 2017 erscheinen
§  ähnlich zu Skylake („Modellpﬂege“)
höherer Takt, schnelleres Speed Shift, verbesserte Graﬁk-Funktionen, bis zu 16x PCIe
3 Lanes direkt an der CPU, Support für Intel Optane (3D XPoint Memory)
§  Server-Modelle
4-Core, 14 nm, 8 MB L3 Cache, 3...4 GHz
unteres Server-Segment, preisgünstiger Einstieg, Cloud-Anbieter
§  Fokus der CPU auf Ultrabooks, Notebooks, Desktop
Intel Kaby Lake

§  Coﬀee Lake (?)
14 nm, 6 Cores max, integrierte Graﬁk, Desktop/Mobile
§  Cannonlake (?)
10 nm, Die-Shrink von Kaby Lake, ca. Ende 2017, Fertigung läuft zwischenzeitlich
§  Ice Lake
ca. 2019, Prozess bleibt (10 nm), Mikroarchitektur wird überarbeitet (neue Features
etc.), Designphase abgeschlossen
Und was kommt nach Kaby Lake?

§  Xeon Phi Knights Mill
Manycore-Architektur, Optimierungen für AI, ca. Ende 2017, ca. 4x Performance FP16
zu KNL
§  Altera Arria 10
FPGA Koprozessor-Karte, „Deep Learning Inference Accelerator“ (DLIA), soll alternativ
auch integriert mit Broadwell in einem Gehäuse kommen
§  Nervana Engine
Codename Lake Crest, CPU + Memory auf Interposer-Board, PCI-Karte, je CPU 12x
100 GB/s Highspeed Link, ca. 1 TB/s (!) Memory-Bandbreite (4 GB DVD in 4 µs)
§  AI/Machine Learning, „Acqui-Hire“
Aber Intel kann noch mehr!

§  12 Core / 96 Threads max
22 nm, Markteinführung 2014
Modelle mit 4, 6, 8, 10, 12 Core
§  Abstraktion Memory-Interface, buﬀered Memory ➛ Centaur
CPU ⟷ Centaur ist festgelegt und unter IBM-Kontrolle
Centaur ⟷ DIMM ist ﬂexibel und „leicht“ änderbar.
3x 9.6 GB/s je Centaur @ 40 ns Latenz, 2:1 read:write
max. 8 Centaur-Interfaces je CPU
§  Coherent Accelerator Processor Interface (CAPI) (Power 8+)
Interconnect auf Basis PCIe 3.0
kann auch für NVLink genutzt werden (➛ Nvidia P100/V100)
IBM Power 8

§  24 Core, SMT4 und SMT8
14 nm, 4 GHz max., 120 MB L3 Cache (!),
8 TB RAM je Sockel, ca. 2. HJ 2017
SMT4: Linux Ecosystem optimized
SMT8: PowerVM Ecosystem (=AIX)
§  ScaleOut (SO) vs. ScaleUp (SU)
SO: 8x DDR4, 4 TB max. (256 GB Module),
optimiert auf 2 Sockel
SU: 8x Centaur Buﬀered Memory / Sockel,
128 MB L4 Cache (16 MB/Centaur),
optimiert für 4+ Sockel
IBM Power 9 (1)

Bild: IBM

§  PCIe Gen4
48 Lanes á 16 Gbit/s (Σ96 GB/s)
PCIe Gen3: 8 Gbit/s je Lane
§  IBM BlueLink
48 Lanes á 25 Gbit/s (Σ150 GB/s)
lässt sich z. B. als NVLink 2 betreiben
auch als FPGA Connect denkbar
IBM Power 9 (2)

Bild:IBM

§  80 (84) SM Modules
Streaming Multiprocessor
64 CUDA-Cores
8 Tensor-Cores
§  Tensor Core
D = A×B + C
(Matrix × Matrix) + Matrix
Kern des grundlegenden Algorithmus bei Machine Learning
„MAC“-Operation
§  GP100 ➛ GV100
ca. 9.3x schneller bei AI wg. Tensor-Cores
Nvidia Volta (1)

Bild:Nvidia

§  5120 CUDA-Cores
640 Tensor-Cores
12 nm, 815 mm²
§  1.455 GHz
300 W TDP
§  ab Q3/2017
Nvidia Volta (2)

Bild: Nvidia

§  1x GV100 + 4x HBM2 auf Interposer Board ➛ V100
Modul für Mainboard (NVLink 2)
PCIe-Karte
§  900 GB/s Memory Throughput @ HBM2 (ca. 10...30 ns Latenz)
§  NVLink 2
6 Links / GPU, á 50 GB/s (beide Richtungen)
Kohärenz, atomic transfers
GPU ⟷ GPU (Boston ANNA) oder GPU ⟷ CPU (IBM Power 8+ und Power 9)
Nvidia Volta (3)

§  Cavium Thunder X-2
54x ARM64 Core, Microsoft Windows Server verfügbar (Cloud only)
§  NEC Aurora
Vektor-CPU als PCIe-Karte mit HBM2 Memory, voraussichtlich 8...10 Core
§  Google TPU
Tensor Processing Unit, 65536x 8-Bit Integer Units
spezialisiert auf MAC-Operationen
§  Intel Kittson (IA64)
letzter jemals gebauter Itanium, 4-/8-Core, 2.66 GHz max, HP-UX
§  Oracle SPARC S7/M7, Fujitsu SPARC64 XII
Crypto Units (wire speed), teilweise SoC, Memory Security, „Software in Silicon“
Exotik

§  CPUs und GPUs als Einzelstücke (auch größere Mengen)
Intel, AMD, Nvidia
§  Mainboards passend für AMD- oder Intel-CPUs
Supermicro
§  Komplettsysteme mit AMD- oder Intel-CPUs
§  komplette Palette NVidia GPUs
§  Boston ANNA Machine Learning Appliance
Nvidia P100/V100
§  Systeme mit IBM Power 8+ und Nvidia P100 (NVlink)
Bei Boston derzeit erhältlich

§  Koprozessoren für AI/Machine Learning
FPGA, GPGPU, Tensor-Einheiten in „normaler“ CPU
§  persistentes Memory
NVMeoF / NVDIMM hat Latenzen nahe DIMMs
„Storage Class Memory“ (SCM)
§  SoC
I/O möglichst nahe an der CPU, hohe Bandbreite, geringe Latenz
§  Software in Silicon
Funktionseinheiten für spezielle Anwendungsfälle
Glaskugelkaﬀeesatz

§  c‘t Prozessorgeﬂüster
zweiwöchentliche Kolumne, auch online (kostenfrei)
§  The Register und The Next Platform
https://www.theregister.co.uk
https://www.nextplatform.com/
§  Golem
https://www.golem.de
§  Fach- und Lehrbücher zu Prozessor- und Computerarchitektur
nachfragen bei wolfgang.stief@boston-it.de
Zum Weiterlesen

Werbeblock – Boston Solution Day 2017

§  Mittwoch, 28. Juni 2017, Gutsgasthof Stangl, Neufarn bei Anzing
https://www.boston-it.de/news/events/uebersicht-bstd17/
§  Fachvorträge und Ausstellung
- Erfolgreiche IoT-Geschäftsmodelle – Chancen & Gestaltungsoptionen
- Blockchain & Crypto Währungen
- Neues aus den Boston Labs
- NDA Showroom: Intel Purley Plattform, IBM Power mit Nvidia GPU
u. a.

Kontakt
+49 89 9090199-3
www.boston-it.de
sales@boston-it.de
BostonITsolutions
@BostonGermany
Boston-server-&-storage-solutions-gmbh

CPU Update Juni 2017

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (18)

Ähnlich wie CPU Update Juni 2017

Ähnlich wie CPU Update Juni 2017 (20)

Mehr von BOSTON Server & Storage Solutions GmbH

Mehr von BOSTON Server & Storage Solutions GmbH (8)

CPU Update Juni 2017