SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Boston Webinar
CPU Update – Was tut sich bei den Rechenknechten?
Wolfgang Stief
Senior Consultant
§  Gegründet 1992 – 25 Jahre Innovation
§  Supermicros ältester & größter globaler Partner — seit über 20 Jahren
§  Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie)
§  London HQ, Niederlassungen in London City, München, Mumbai,
Bangalore, New York. Weitere Expansion geplant.
§  Experten im Lösungs- und HPC-System-Design unter Verwendung von
Premium-Komponenten von Supermicro und ausgewählten Partnern
§  Supermicros Fastest Growing Partner
Über uns
§  Cores, Cores und noch mal Cores
Multithreading, Multicore, Manycore – ein paar Grundlagen
§  Der Weg durch die Instanzen
AMD Epyc, Intel Skylake-SP, Intel Kaby Lake, IBM POWER, Nvidia Volta, Exoten
§  Ein kurzer Blick in die Glaskugel
§  Das Lieferprogramm von Boston
§  Zum Weiterlesen
Agenda
§  Geschwindigkeitslücke CPU ⟷ Memory
anfangs Cache, dann mehr Cache, noch mehr Cache, später Parallelisierung
§  Dual-Core, Quad-Core ++
ab ca. 1970, IBM, CDC, Cray u. a.
§  Multithreading
2, 4, 6++ Threads
ähnliche Technologie bei allen
§  Herausforderung immer:
Synchronisation
Cache-Kohärenz
Taktfrequenz vs. Anzahl Cores
Warum die Cores immer mehr wurden (1)
curve shows transistor
count doubling every
two years
2,300
10,000
100,000
1,000,000
10,000,000
100,000,000
1,000,000,000
2,600,000,000
1971 1980 1990 2000 2011
Date of introduction
4004
8008
8080
RCA 1802
8085
8088
Z80
MOS 6502
6809
8086
80186
6800
68000
80286
80386
80486
Pentium
AMD K5
Pentium II
Pentium III
AMD K6
AMD K6-III
AMD K7
Pentium 4
Barton Atom
AMD K8
Itanium 2 Cell
Core 2 Duo
AMD K10
Itanium 2 with 9MB cache
POWER6
Core i7 (Quad)
Six-Core Opteron 2400
8-Core Xeon Nehalem-EX
Quad-Core Itanium Tukwila
Quad-core z196
8-core POWER7
10-Core Xeon Westmere-EX
16-Core SPARC T3
Six-Core Core i7
Six-Core Xeon 7400
Dual-Core Itanium 2
AMD K10
Microprocessor Transistor Counts 1971-2011 & Moore's Law
Transistorcount
§  Verbesserung im Herstellungsprozess
immer kleinere Strukturbreiten
aktuell 14 nm, 10 nm, 7 nm (wenige Atomlagen)
menschliches Haar: 40.000 nm (!)
§  Mooresches Gesetz
Etwa alle 18 Monate verdoppelt sich die Anzahl
der Schaltkreiselemente eines integrierten
Schaltkreises.
Gordon Moore, 1965 (Mitgründer von Intel)
§  Also: immer mehr Funktion auf gleicher
Chip-Fläche (Cache, Cores, SoC)
Warum die Cores immer mehr wurden (2)
Bild:ByWgsimon-Ownwork,CCBY-SA3.0
https://commons.wikimedia.org/w/index.php?curid=15193542
§  Die PS müssen ja auch
irgendwie auf die Straße.
§  Das Fahrwerk muss zum
Motor passen.
§  Kunst, Magie und Erfahrung
der Board- und System-
hersteller
Aber! Gigahertz und Multicore ist nicht alles!
§  32 Core / 64 Threads (max)
Zen Architektur, 7 nm
gleicher Core wie AMD Ryzen
§  8 Memory Channels / Sockel
16 DIMMs / Sockel (derzeit 2 TB)
8x 21.6 GB/s Memory Bandwidth
(Skylake-EP: 127.8 GB/s total)
§  128 PCIe 3.0 Lanes / Sockel
2-Sockel-System: 64 Lanes für
Interconnect/CPU (Infinity Fabric)
§  Launch: 20. Juni 2017
AMD Epyc (aka Naples) (1)
					
Bild: AMD
§  Multichip Modul (MCM)
Infinite Fabric: cache coherent Hypertransport
§  8/16/24/32 Core Modelle
kommen alle als MCM
alle Modelle haben volle Memory Bandbreite
balanced architecture über 1- und 2-Sockel-Systeme
§  nur AVX128 (Intel AVX256/512)
deshalb schlechtere LINPACK-Leistung als Xeon
AMD: rechenintensive Aufgaben an GPU auslagern
§  Security Prozessor
Memory Crypt (z. B. persistenter Hauptspeicher)
AMD Epyc (aka Naples) (2)
					
Bild:AMDBild:AMD
§  SoC Design
NVMe Support on Chip
Server Controller Hub (statt PCH)
§  +40% SPECint, +60% SPECfp
im Vergleich zu Intel E5-2699Av4
1 ➛ 2 Sockel: 1.98x Performance
§  neuartige Branch Prediction
nutzt Techniken neuronaler Netze für
genauere Sprungvorhersagen
falsche Vorhersagen sind „teuer“
§  Next: Zen 2 „Rome“ und Zen 3
AMD Epyc (aka Naples) (3)
§  28 Core, 112 Threads max
2.5 GHz / 3.8 GHz (Turbo) max
§  1 MB L2 Cache je Core
Broadwell-EP: 256 kB
§  38.5 MB L3 Cache (max)
Xeon Platinum 8180
§  AVX512
Vektor-Einheit, SIMD, Gleitkomma-
Berechnungen
§  Modelle mit integriertem I/O
OmniPath (bisher KNL only), Ethernet
Intel Skylake-SP (1)
					
Bild:Intel
§  Wechsel Ring ➛ Mesh
ähnlich Xeon Phi aka KNL
Ring für große Anzahl Cores ungeeignet
Mesh hat höhere Transferraten bei
geringerer Latenz
§  Neue Bezeichnungen
Bronze, Silver, Gold, Platinum
§  Neue Buchstaben
SP ➛ Scalable Performance
F ➛ Fabric OmniPath
P ➛ FPGA on Module
Intel Skylake-SP (2)
					
Bild: Intel
§  7. Generation Intel Core Architecture
Refresh soll noch in 2017 erscheinen
§  ähnlich zu Skylake („Modellpflege“)
höherer Takt, schnelleres Speed Shift, verbesserte Grafik-Funktionen, bis zu 16x PCIe
3 Lanes direkt an der CPU, Support für Intel Optane (3D XPoint Memory)
§  Server-Modelle
4-Core, 14 nm, 8 MB L3 Cache, 3...4 GHz
unteres Server-Segment, preisgünstiger Einstieg, Cloud-Anbieter
§  Fokus der CPU auf Ultrabooks, Notebooks, Desktop
Intel Kaby Lake
§  Coffee Lake (?)
14 nm, 6 Cores max, integrierte Grafik, Desktop/Mobile
§  Cannonlake (?)
10 nm, Die-Shrink von Kaby Lake, ca. Ende 2017, Fertigung läuft zwischenzeitlich
§  Ice Lake
ca. 2019, Prozess bleibt (10 nm), Mikroarchitektur wird überarbeitet (neue Features
etc.), Designphase abgeschlossen
Und was kommt nach Kaby Lake?
§  Xeon Phi Knights Mill
Manycore-Architektur, Optimierungen für AI, ca. Ende 2017, ca. 4x Performance FP16
zu KNL
§  Altera Arria 10
FPGA Koprozessor-Karte, „Deep Learning Inference Accelerator“ (DLIA), soll alternativ
auch integriert mit Broadwell in einem Gehäuse kommen
§  Nervana Engine
Codename Lake Crest, CPU + Memory auf Interposer-Board, PCI-Karte, je CPU 12x
100 GB/s Highspeed Link, ca. 1 TB/s (!) Memory-Bandbreite (4 GB DVD in 4 µs)
§  AI/Machine Learning, „Acqui-Hire“
Aber Intel kann noch mehr!
§  12 Core / 96 Threads max
22 nm, Markteinführung 2014
Modelle mit 4, 6, 8, 10, 12 Core
§  Abstraktion Memory-Interface, buffered Memory ➛ Centaur
CPU ⟷ Centaur ist festgelegt und unter IBM-Kontrolle
Centaur ⟷ DIMM ist flexibel und „leicht“ änderbar.
3x 9.6 GB/s je Centaur @ 40 ns Latenz, 2:1 read:write
max. 8 Centaur-Interfaces je CPU
§  Coherent Accelerator Processor Interface (CAPI) (Power 8+)
Interconnect auf Basis PCIe 3.0
kann auch für NVLink genutzt werden (➛ Nvidia P100/V100)
IBM Power 8
§  24 Core, SMT4 und SMT8
14 nm, 4 GHz max., 120 MB L3 Cache (!),
8 TB RAM je Sockel, ca. 2. HJ 2017
SMT4: Linux Ecosystem optimized
SMT8: PowerVM Ecosystem (=AIX)
§  ScaleOut (SO) vs. ScaleUp (SU)
SO: 8x DDR4, 4 TB max. (256 GB Module),
optimiert auf 2 Sockel
SU: 8x Centaur Buffered Memory / Sockel,
128 MB L4 Cache (16 MB/Centaur),
optimiert für 4+ Sockel
IBM Power 9 (1)
					
Bild: IBM
§  PCIe Gen4
48 Lanes á 16 Gbit/s (Σ96 GB/s)
PCIe Gen3: 8 Gbit/s je Lane
§  IBM BlueLink
48 Lanes á 25 Gbit/s (Σ150 GB/s)
lässt sich z. B. als NVLink 2 betreiben
auch als FPGA Connect denkbar
IBM Power 9 (2)
					
Bild:IBM
§  80 (84) SM Modules
Streaming Multiprocessor
64 CUDA-Cores
8 Tensor-Cores
§  Tensor Core
D = A×B + C
(Matrix × Matrix) + Matrix
Kern des grundlegenden Algorithmus bei Machine Learning
„MAC“-Operation
§  GP100 ➛ GV100
ca. 9.3x schneller bei AI wg. Tensor-Cores
Nvidia Volta (1)
					
Bild:Nvidia
§  5120 CUDA-Cores
640 Tensor-Cores
12 nm, 815 mm²
§  1.455 GHz
300 W TDP
§  ab Q3/2017
Nvidia Volta (2)
					
Bild: Nvidia
§  1x GV100 + 4x HBM2 auf Interposer Board ➛ V100
Modul für Mainboard (NVLink 2)
PCIe-Karte
§  900 GB/s Memory Throughput @ HBM2 (ca. 10...30 ns Latenz)
§  NVLink 2
6 Links / GPU, á 50 GB/s (beide Richtungen)
Kohärenz, atomic transfers
GPU ⟷ GPU (Boston ANNA) oder GPU ⟷ CPU (IBM Power 8+ und Power 9)
Nvidia Volta (3)
§  Cavium Thunder X-2
54x ARM64 Core, Microsoft Windows Server verfügbar (Cloud only)
§  NEC Aurora
Vektor-CPU als PCIe-Karte mit HBM2 Memory, voraussichtlich 8...10 Core
§  Google TPU
Tensor Processing Unit, 65536x 8-Bit Integer Units
spezialisiert auf MAC-Operationen
§  Intel Kittson (IA64)
letzter jemals gebauter Itanium, 4-/8-Core, 2.66 GHz max, HP-UX
§  Oracle SPARC S7/M7, Fujitsu SPARC64 XII
Crypto Units (wire speed), teilweise SoC, Memory Security, „Software in Silicon“
Exotik
§  CPUs und GPUs als Einzelstücke (auch größere Mengen)
Intel, AMD, Nvidia
§  Mainboards passend für AMD- oder Intel-CPUs
Supermicro
§  Komplettsysteme mit AMD- oder Intel-CPUs
§  komplette Palette NVidia GPUs
§  Boston ANNA Machine Learning Appliance
Nvidia P100/V100
§  Systeme mit IBM Power 8+ und Nvidia P100 (NVlink)
Bei Boston derzeit erhältlich
§  Koprozessoren für AI/Machine Learning
FPGA, GPGPU, Tensor-Einheiten in „normaler“ CPU
§  persistentes Memory
NVMeoF / NVDIMM hat Latenzen nahe DIMMs
„Storage Class Memory“ (SCM)
§  SoC
I/O möglichst nahe an der CPU, hohe Bandbreite, geringe Latenz
§  Software in Silicon
Funktionseinheiten für spezielle Anwendungsfälle
Glaskugelkaffeesatz
§  c‘t Prozessorgeflüster
zweiwöchentliche Kolumne, auch online (kostenfrei)
§  The Register und The Next Platform
https://www.theregister.co.uk
https://www.nextplatform.com/
§  Golem
https://www.golem.de
§  Fach- und Lehrbücher zu Prozessor- und Computerarchitektur
nachfragen bei wolfgang.stief@boston-it.de
Zum Weiterlesen
Werbeblock – Boston Solution Day 2017
					
§  Mittwoch, 28. Juni 2017, Gutsgasthof Stangl, Neufarn bei Anzing
https://www.boston-it.de/news/events/uebersicht-bstd17/
§  Fachvorträge und Ausstellung
- Erfolgreiche IoT-Geschäftsmodelle – Chancen & Gestaltungsoptionen
- Blockchain & Crypto Währungen
- Neues aus den Boston Labs
- NDA Showroom: Intel Purley Plattform, IBM Power mit Nvidia GPU
u. a.
Kontakt
+49 89 9090199-3
www.boston-it.de
sales@boston-it.de
BostonITsolutions
@BostonGermany
Boston-server-&-storage-solutions-gmbh

Weitere ähnliche Inhalte

Was ist angesagt?

20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridgeWerner Fischer
 
AnyARK Gluster Brick 270TB (198TB netto) Datenblatt
AnyARK Gluster Brick 270TB (198TB netto) DatenblattAnyARK Gluster Brick 270TB (198TB netto) Datenblatt
AnyARK Gluster Brick 270TB (198TB netto) DatenblattManfred Ostermann
 
Geforce PräSentation by Sebastian Berndt
Geforce PräSentation by Sebastian BerndtGeforce PräSentation by Sebastian Berndt
Geforce PräSentation by Sebastian Berndtgueste16dcd
 
Zukunftstrends: was bringt 2013 für die IT?
Zukunftstrends: was bringt 2013 für die IT?Zukunftstrends: was bringt 2013 für die IT?
Zukunftstrends: was bringt 2013 für die IT?Werner Fischer
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open SourceDaniel Schneller
 
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...NETWAYS
 
Festplatte
FestplatteFestplatte
FestplatteRudi2014
 
Integrierte und dedizierte Backup Lösung von GFI MAX
Integrierte und dedizierte Backup Lösung von GFI MAXIntegrierte und dedizierte Backup Lösung von GFI MAX
Integrierte und dedizierte Backup Lösung von GFI MAXMAX2014DACH
 
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)inovex GmbH
 
Praktische Erfahrungen mit den kleinen SPARC S7-2 Servern
Praktische Erfahrungen mit den kleinen SPARC S7-2 ServernPraktische Erfahrungen mit den kleinen SPARC S7-2 Servern
Praktische Erfahrungen mit den kleinen SPARC S7-2 ServernJomaSoft
 
Archivistavm OpenTuesday Digicomp
Archivistavm OpenTuesday DigicompArchivistavm OpenTuesday Digicomp
Archivistavm OpenTuesday DigicompDigicomp Academy AG
 

Was ist angesagt? (18)

20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge
 
Boston webcast gpu_2016-12
Boston webcast gpu_2016-12Boston webcast gpu_2016-12
Boston webcast gpu_2016-12
 
AnyARK Gluster Brick 270TB (198TB netto) Datenblatt
AnyARK Gluster Brick 270TB (198TB netto) DatenblattAnyARK Gluster Brick 270TB (198TB netto) Datenblatt
AnyARK Gluster Brick 270TB (198TB netto) Datenblatt
 
Geforce PräSentation by Sebastian Berndt
Geforce PräSentation by Sebastian BerndtGeforce PräSentation by Sebastian Berndt
Geforce PräSentation by Sebastian Berndt
 
Zukunftstrends: was bringt 2013 für die IT?
Zukunftstrends: was bringt 2013 für die IT?Zukunftstrends: was bringt 2013 für die IT?
Zukunftstrends: was bringt 2013 für die IT?
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
 
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
 
Festplatte
FestplatteFestplatte
Festplatte
 
Laptop
LaptopLaptop
Laptop
 
Integrierte und dedizierte Backup Lösung von GFI MAX
Integrierte und dedizierte Backup Lösung von GFI MAXIntegrierte und dedizierte Backup Lösung von GFI MAX
Integrierte und dedizierte Backup Lösung von GFI MAX
 
Shuttle Neuheiten 2011 (DE)
Shuttle Neuheiten 2011 (DE)Shuttle Neuheiten 2011 (DE)
Shuttle Neuheiten 2011 (DE)
 
Bürohaus Kaucher
Bürohaus KaucherBürohaus Kaucher
Bürohaus Kaucher
 
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)
Hadoop aus IT-Operations-Sicht - Teil 2 (Hardware- und Netzwerkgrundlagen)
 
Grafikkarten Vergleich
Grafikkarten VergleichGrafikkarten Vergleich
Grafikkarten Vergleich
 
Referat bun
Referat bunReferat bun
Referat bun
 
Praktische Erfahrungen mit den kleinen SPARC S7-2 Servern
Praktische Erfahrungen mit den kleinen SPARC S7-2 ServernPraktische Erfahrungen mit den kleinen SPARC S7-2 Servern
Praktische Erfahrungen mit den kleinen SPARC S7-2 Servern
 
Festplattenpräsentation
FestplattenpräsentationFestplattenpräsentation
Festplattenpräsentation
 
Archivistavm OpenTuesday Digicomp
Archivistavm OpenTuesday DigicompArchivistavm OpenTuesday Digicomp
Archivistavm OpenTuesday Digicomp
 

Ähnlich wie CPU Update Juni 2017

Schulung: Einführung in das GPU-Computing mit NVIDIA CUDA
Schulung: Einführung in das GPU-Computing mit NVIDIA CUDASchulung: Einführung in das GPU-Computing mit NVIDIA CUDA
Schulung: Einführung in das GPU-Computing mit NVIDIA CUDAJörn Dinkla
 
Oracle Engineered Systems - Chance oder Risiko?
Oracle Engineered Systems - Chance oder Risiko?Oracle Engineered Systems - Chance oder Risiko?
Oracle Engineered Systems - Chance oder Risiko?Trivadis
 
Microservices and Container Management with Mesosphere DC/OS
Microservices and Container Management with Mesosphere DC/OSMicroservices and Container Management with Mesosphere DC/OS
Microservices and Container Management with Mesosphere DC/OSRalf Ernst
 
Virtualized Exadata - the first 4 "productive" years...
Virtualized Exadata - the first 4 "productive" years...Virtualized Exadata - the first 4 "productive" years...
Virtualized Exadata - the first 4 "productive" years...Daniele Massimi
 
Drahtwanderung: Wir machen den NeXTen Schritt
Drahtwanderung: Wir machen den NeXTen SchrittDrahtwanderung: Wir machen den NeXTen Schritt
Drahtwanderung: Wir machen den NeXTen SchrittFalk Hartmann
 
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuerWerner Fischer
 
TechTalkThursday 27.10.2016: Ceph im NVME Cluster
TechTalkThursday 27.10.2016: Ceph im NVME ClusterTechTalkThursday 27.10.2016: Ceph im NVME Cluster
TechTalkThursday 27.10.2016: Ceph im NVME Clusternine
 
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...NETWAYS
 
20111006 roadshow-io-performance
20111006 roadshow-io-performance20111006 roadshow-io-performance
20111006 roadshow-io-performanceWerner Fischer
 
EI_2011_07_fürs-Internet
EI_2011_07_fürs-InternetEI_2011_07_fürs-Internet
EI_2011_07_fürs-Internetnaveenfhd
 
esp8266 Demo - bonn agile tech talks
esp8266 Demo - bonn agile tech talksesp8266 Demo - bonn agile tech talks
esp8266 Demo - bonn agile tech talksAndreas Kluth
 
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackInfracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackEdmund Siegfried Haselwanter
 
FROSCON 2011: MySQL Performance Tuning
FROSCON 2011: MySQL Performance TuningFROSCON 2011: MySQL Performance Tuning
FROSCON 2011: MySQL Performance TuningFromDual GmbH
 
Exadata with VM as Consolidation Plattform
Exadata with VM as Consolidation PlattformExadata with VM as Consolidation Plattform
Exadata with VM as Consolidation PlattformDaniele Massimi
 
DOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance TuningDOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance TuningFromDual GmbH
 
Josua Braun, Senior Marketing Manager Storage @ Netgear
Josua Braun, Senior Marketing Manager Storage @ NetgearJosua Braun, Senior Marketing Manager Storage @ Netgear
Josua Braun, Senior Marketing Manager Storage @ NetgearNetgear_Business_DE
 

Ähnlich wie CPU Update Juni 2017 (20)

Schulung: Einführung in das GPU-Computing mit NVIDIA CUDA
Schulung: Einführung in das GPU-Computing mit NVIDIA CUDASchulung: Einführung in das GPU-Computing mit NVIDIA CUDA
Schulung: Einführung in das GPU-Computing mit NVIDIA CUDA
 
Oracle Engineered Systems - Chance oder Risiko?
Oracle Engineered Systems - Chance oder Risiko?Oracle Engineered Systems - Chance oder Risiko?
Oracle Engineered Systems - Chance oder Risiko?
 
Microservices and Container Management with Mesosphere DC/OS
Microservices and Container Management with Mesosphere DC/OSMicroservices and Container Management with Mesosphere DC/OS
Microservices and Container Management with Mesosphere DC/OS
 
Virtualized Exadata - the first 4 "productive" years...
Virtualized Exadata - the first 4 "productive" years...Virtualized Exadata - the first 4 "productive" years...
Virtualized Exadata - the first 4 "productive" years...
 
Drahtwanderung: Wir machen den NeXTen Schritt
Drahtwanderung: Wir machen den NeXTen SchrittDrahtwanderung: Wir machen den NeXTen Schritt
Drahtwanderung: Wir machen den NeXTen Schritt
 
SuperSUSE – die Lösung für dynamisch wachsenden Speicher
SuperSUSE – die Lösung für dynamisch wachsenden SpeicherSuperSUSE – die Lösung für dynamisch wachsenden Speicher
SuperSUSE – die Lösung für dynamisch wachsenden Speicher
 
Boston webcast nv_me_2016-09
Boston webcast nv_me_2016-09Boston webcast nv_me_2016-09
Boston webcast nv_me_2016-09
 
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer
20101011 roadshow-2010-ssds-grundlagen-know-how-und-konkrete-konfiguration-fuer
 
TechTalkThursday 27.10.2016: Ceph im NVME Cluster
TechTalkThursday 27.10.2016: Ceph im NVME ClusterTechTalkThursday 27.10.2016: Ceph im NVME Cluster
TechTalkThursday 27.10.2016: Ceph im NVME Cluster
 
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
 
in memory datenbanken
in memory datenbankenin memory datenbanken
in memory datenbanken
 
20111006 roadshow-io-performance
20111006 roadshow-io-performance20111006 roadshow-io-performance
20111006 roadshow-io-performance
 
EI_2011_07_fürs-Internet
EI_2011_07_fürs-InternetEI_2011_07_fürs-Internet
EI_2011_07_fürs-Internet
 
esp8266 Demo - bonn agile tech talks
esp8266 Demo - bonn agile tech talksesp8266 Demo - bonn agile tech talks
esp8266 Demo - bonn agile tech talks
 
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackInfracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
 
FROSCON 2011: MySQL Performance Tuning
FROSCON 2011: MySQL Performance TuningFROSCON 2011: MySQL Performance Tuning
FROSCON 2011: MySQL Performance Tuning
 
Exadata with VM as Consolidation Plattform
Exadata with VM as Consolidation PlattformExadata with VM as Consolidation Plattform
Exadata with VM as Consolidation Plattform
 
DOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance TuningDOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance Tuning
 
Josua Braun, Senior Marketing Manager Storage @ Netgear
Josua Braun, Senior Marketing Manager Storage @ NetgearJosua Braun, Senior Marketing Manager Storage @ Netgear
Josua Braun, Senior Marketing Manager Storage @ Netgear
 
NUMA vs. Hugepages
NUMA vs. HugepagesNUMA vs. Hugepages
NUMA vs. Hugepages
 

Mehr von BOSTON Server & Storage Solutions GmbH

Mehr von BOSTON Server & Storage Solutions GmbH (8)

Storage, Backup und Business Continuity mit Open-E
Storage, Backup und Business Continuity mit Open-EStorage, Backup und Business Continuity mit Open-E
Storage, Backup und Business Continuity mit Open-E
 
Seagate – Next Level Storage (Webinar mit Boston Server & Storage, 2018 09-28)
Seagate – Next Level Storage (Webinar mit Boston Server & Storage,  2018 09-28)Seagate – Next Level Storage (Webinar mit Boston Server & Storage,  2018 09-28)
Seagate – Next Level Storage (Webinar mit Boston Server & Storage, 2018 09-28)
 
Welcome to the Datasphere – the next level of storage
Welcome to the Datasphere – the next level of storageWelcome to the Datasphere – the next level of storage
Welcome to the Datasphere – the next level of storage
 
Fische im Rechenzentrum – Was genau ist eigentlich dieses Redfish und wozu br...
Fische im Rechenzentrum – Was genau ist eigentlich dieses Redfish und wozu br...Fische im Rechenzentrum – Was genau ist eigentlich dieses Redfish und wozu br...
Fische im Rechenzentrum – Was genau ist eigentlich dieses Redfish und wozu br...
 
Datera — Elastic Data Fabric Storage für das Rechenzentrum von heute
Datera — Elastic Data Fabric Storage für das Rechenzentrum von heuteDatera — Elastic Data Fabric Storage für das Rechenzentrum von heute
Datera — Elastic Data Fabric Storage für das Rechenzentrum von heute
 
Webinar: Boston Igloo Plus mit AccelStor FlexiRemap Technologie
Webinar: Boston Igloo Plus mit AccelStor FlexiRemap TechnologieWebinar: Boston Igloo Plus mit AccelStor FlexiRemap Technologie
Webinar: Boston Igloo Plus mit AccelStor FlexiRemap Technologie
 
Webinar Boston Igloo Plus All-Flash-Array mit AccelStor FlexiRemap Technology
Webinar Boston Igloo Plus All-Flash-Array mit AccelStor FlexiRemap TechnologyWebinar Boston Igloo Plus All-Flash-Array mit AccelStor FlexiRemap Technology
Webinar Boston Igloo Plus All-Flash-Array mit AccelStor FlexiRemap Technology
 
Boston webcast hyperconverged_2016-06
Boston webcast hyperconverged_2016-06Boston webcast hyperconverged_2016-06
Boston webcast hyperconverged_2016-06
 

CPU Update Juni 2017

  • 1. Boston Webinar CPU Update – Was tut sich bei den Rechenknechten? Wolfgang Stief Senior Consultant
  • 2. §  Gegründet 1992 – 25 Jahre Innovation §  Supermicros ältester & größter globaler Partner — seit über 20 Jahren §  Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie) §  London HQ, Niederlassungen in London City, München, Mumbai, Bangalore, New York. Weitere Expansion geplant. §  Experten im Lösungs- und HPC-System-Design unter Verwendung von Premium-Komponenten von Supermicro und ausgewählten Partnern §  Supermicros Fastest Growing Partner Über uns
  • 3. §  Cores, Cores und noch mal Cores Multithreading, Multicore, Manycore – ein paar Grundlagen §  Der Weg durch die Instanzen AMD Epyc, Intel Skylake-SP, Intel Kaby Lake, IBM POWER, Nvidia Volta, Exoten §  Ein kurzer Blick in die Glaskugel §  Das Lieferprogramm von Boston §  Zum Weiterlesen Agenda
  • 4. §  Geschwindigkeitslücke CPU ⟷ Memory anfangs Cache, dann mehr Cache, noch mehr Cache, später Parallelisierung §  Dual-Core, Quad-Core ++ ab ca. 1970, IBM, CDC, Cray u. a. §  Multithreading 2, 4, 6++ Threads ähnliche Technologie bei allen §  Herausforderung immer: Synchronisation Cache-Kohärenz Taktfrequenz vs. Anzahl Cores Warum die Cores immer mehr wurden (1)
  • 5. curve shows transistor count doubling every two years 2,300 10,000 100,000 1,000,000 10,000,000 100,000,000 1,000,000,000 2,600,000,000 1971 1980 1990 2000 2011 Date of introduction 4004 8008 8080 RCA 1802 8085 8088 Z80 MOS 6502 6809 8086 80186 6800 68000 80286 80386 80486 Pentium AMD K5 Pentium II Pentium III AMD K6 AMD K6-III AMD K7 Pentium 4 Barton Atom AMD K8 Itanium 2 Cell Core 2 Duo AMD K10 Itanium 2 with 9MB cache POWER6 Core i7 (Quad) Six-Core Opteron 2400 8-Core Xeon Nehalem-EX Quad-Core Itanium Tukwila Quad-core z196 8-core POWER7 10-Core Xeon Westmere-EX 16-Core SPARC T3 Six-Core Core i7 Six-Core Xeon 7400 Dual-Core Itanium 2 AMD K10 Microprocessor Transistor Counts 1971-2011 & Moore's Law Transistorcount §  Verbesserung im Herstellungsprozess immer kleinere Strukturbreiten aktuell 14 nm, 10 nm, 7 nm (wenige Atomlagen) menschliches Haar: 40.000 nm (!) §  Mooresches Gesetz Etwa alle 18 Monate verdoppelt sich die Anzahl der Schaltkreiselemente eines integrierten Schaltkreises. Gordon Moore, 1965 (Mitgründer von Intel) §  Also: immer mehr Funktion auf gleicher Chip-Fläche (Cache, Cores, SoC) Warum die Cores immer mehr wurden (2) Bild:ByWgsimon-Ownwork,CCBY-SA3.0 https://commons.wikimedia.org/w/index.php?curid=15193542
  • 6. §  Die PS müssen ja auch irgendwie auf die Straße. §  Das Fahrwerk muss zum Motor passen. §  Kunst, Magie und Erfahrung der Board- und System- hersteller Aber! Gigahertz und Multicore ist nicht alles!
  • 7. §  32 Core / 64 Threads (max) Zen Architektur, 7 nm gleicher Core wie AMD Ryzen §  8 Memory Channels / Sockel 16 DIMMs / Sockel (derzeit 2 TB) 8x 21.6 GB/s Memory Bandwidth (Skylake-EP: 127.8 GB/s total) §  128 PCIe 3.0 Lanes / Sockel 2-Sockel-System: 64 Lanes für Interconnect/CPU (Infinity Fabric) §  Launch: 20. Juni 2017 AMD Epyc (aka Naples) (1) Bild: AMD
  • 8. §  Multichip Modul (MCM) Infinite Fabric: cache coherent Hypertransport §  8/16/24/32 Core Modelle kommen alle als MCM alle Modelle haben volle Memory Bandbreite balanced architecture über 1- und 2-Sockel-Systeme §  nur AVX128 (Intel AVX256/512) deshalb schlechtere LINPACK-Leistung als Xeon AMD: rechenintensive Aufgaben an GPU auslagern §  Security Prozessor Memory Crypt (z. B. persistenter Hauptspeicher) AMD Epyc (aka Naples) (2) Bild:AMDBild:AMD
  • 9. §  SoC Design NVMe Support on Chip Server Controller Hub (statt PCH) §  +40% SPECint, +60% SPECfp im Vergleich zu Intel E5-2699Av4 1 ➛ 2 Sockel: 1.98x Performance §  neuartige Branch Prediction nutzt Techniken neuronaler Netze für genauere Sprungvorhersagen falsche Vorhersagen sind „teuer“ §  Next: Zen 2 „Rome“ und Zen 3 AMD Epyc (aka Naples) (3)
  • 10. §  28 Core, 112 Threads max 2.5 GHz / 3.8 GHz (Turbo) max §  1 MB L2 Cache je Core Broadwell-EP: 256 kB §  38.5 MB L3 Cache (max) Xeon Platinum 8180 §  AVX512 Vektor-Einheit, SIMD, Gleitkomma- Berechnungen §  Modelle mit integriertem I/O OmniPath (bisher KNL only), Ethernet Intel Skylake-SP (1) Bild:Intel
  • 11. §  Wechsel Ring ➛ Mesh ähnlich Xeon Phi aka KNL Ring für große Anzahl Cores ungeeignet Mesh hat höhere Transferraten bei geringerer Latenz §  Neue Bezeichnungen Bronze, Silver, Gold, Platinum §  Neue Buchstaben SP ➛ Scalable Performance F ➛ Fabric OmniPath P ➛ FPGA on Module Intel Skylake-SP (2) Bild: Intel
  • 12. §  7. Generation Intel Core Architecture Refresh soll noch in 2017 erscheinen §  ähnlich zu Skylake („Modellpflege“) höherer Takt, schnelleres Speed Shift, verbesserte Grafik-Funktionen, bis zu 16x PCIe 3 Lanes direkt an der CPU, Support für Intel Optane (3D XPoint Memory) §  Server-Modelle 4-Core, 14 nm, 8 MB L3 Cache, 3...4 GHz unteres Server-Segment, preisgünstiger Einstieg, Cloud-Anbieter §  Fokus der CPU auf Ultrabooks, Notebooks, Desktop Intel Kaby Lake
  • 13. §  Coffee Lake (?) 14 nm, 6 Cores max, integrierte Grafik, Desktop/Mobile §  Cannonlake (?) 10 nm, Die-Shrink von Kaby Lake, ca. Ende 2017, Fertigung läuft zwischenzeitlich §  Ice Lake ca. 2019, Prozess bleibt (10 nm), Mikroarchitektur wird überarbeitet (neue Features etc.), Designphase abgeschlossen Und was kommt nach Kaby Lake?
  • 14. §  Xeon Phi Knights Mill Manycore-Architektur, Optimierungen für AI, ca. Ende 2017, ca. 4x Performance FP16 zu KNL §  Altera Arria 10 FPGA Koprozessor-Karte, „Deep Learning Inference Accelerator“ (DLIA), soll alternativ auch integriert mit Broadwell in einem Gehäuse kommen §  Nervana Engine Codename Lake Crest, CPU + Memory auf Interposer-Board, PCI-Karte, je CPU 12x 100 GB/s Highspeed Link, ca. 1 TB/s (!) Memory-Bandbreite (4 GB DVD in 4 µs) §  AI/Machine Learning, „Acqui-Hire“ Aber Intel kann noch mehr!
  • 15. §  12 Core / 96 Threads max 22 nm, Markteinführung 2014 Modelle mit 4, 6, 8, 10, 12 Core §  Abstraktion Memory-Interface, buffered Memory ➛ Centaur CPU ⟷ Centaur ist festgelegt und unter IBM-Kontrolle Centaur ⟷ DIMM ist flexibel und „leicht“ änderbar. 3x 9.6 GB/s je Centaur @ 40 ns Latenz, 2:1 read:write max. 8 Centaur-Interfaces je CPU §  Coherent Accelerator Processor Interface (CAPI) (Power 8+) Interconnect auf Basis PCIe 3.0 kann auch für NVLink genutzt werden (➛ Nvidia P100/V100) IBM Power 8
  • 16. §  24 Core, SMT4 und SMT8 14 nm, 4 GHz max., 120 MB L3 Cache (!), 8 TB RAM je Sockel, ca. 2. HJ 2017 SMT4: Linux Ecosystem optimized SMT8: PowerVM Ecosystem (=AIX) §  ScaleOut (SO) vs. ScaleUp (SU) SO: 8x DDR4, 4 TB max. (256 GB Module), optimiert auf 2 Sockel SU: 8x Centaur Buffered Memory / Sockel, 128 MB L4 Cache (16 MB/Centaur), optimiert für 4+ Sockel IBM Power 9 (1) Bild: IBM
  • 17. §  PCIe Gen4 48 Lanes á 16 Gbit/s (Σ96 GB/s) PCIe Gen3: 8 Gbit/s je Lane §  IBM BlueLink 48 Lanes á 25 Gbit/s (Σ150 GB/s) lässt sich z. B. als NVLink 2 betreiben auch als FPGA Connect denkbar IBM Power 9 (2) Bild:IBM
  • 18. §  80 (84) SM Modules Streaming Multiprocessor 64 CUDA-Cores 8 Tensor-Cores §  Tensor Core D = A×B + C (Matrix × Matrix) + Matrix Kern des grundlegenden Algorithmus bei Machine Learning „MAC“-Operation §  GP100 ➛ GV100 ca. 9.3x schneller bei AI wg. Tensor-Cores Nvidia Volta (1) Bild:Nvidia
  • 19. §  5120 CUDA-Cores 640 Tensor-Cores 12 nm, 815 mm² §  1.455 GHz 300 W TDP §  ab Q3/2017 Nvidia Volta (2) Bild: Nvidia
  • 20. §  1x GV100 + 4x HBM2 auf Interposer Board ➛ V100 Modul für Mainboard (NVLink 2) PCIe-Karte §  900 GB/s Memory Throughput @ HBM2 (ca. 10...30 ns Latenz) §  NVLink 2 6 Links / GPU, á 50 GB/s (beide Richtungen) Kohärenz, atomic transfers GPU ⟷ GPU (Boston ANNA) oder GPU ⟷ CPU (IBM Power 8+ und Power 9) Nvidia Volta (3)
  • 21. §  Cavium Thunder X-2 54x ARM64 Core, Microsoft Windows Server verfügbar (Cloud only) §  NEC Aurora Vektor-CPU als PCIe-Karte mit HBM2 Memory, voraussichtlich 8...10 Core §  Google TPU Tensor Processing Unit, 65536x 8-Bit Integer Units spezialisiert auf MAC-Operationen §  Intel Kittson (IA64) letzter jemals gebauter Itanium, 4-/8-Core, 2.66 GHz max, HP-UX §  Oracle SPARC S7/M7, Fujitsu SPARC64 XII Crypto Units (wire speed), teilweise SoC, Memory Security, „Software in Silicon“ Exotik
  • 22. §  CPUs und GPUs als Einzelstücke (auch größere Mengen) Intel, AMD, Nvidia §  Mainboards passend für AMD- oder Intel-CPUs Supermicro §  Komplettsysteme mit AMD- oder Intel-CPUs §  komplette Palette NVidia GPUs §  Boston ANNA Machine Learning Appliance Nvidia P100/V100 §  Systeme mit IBM Power 8+ und Nvidia P100 (NVlink) Bei Boston derzeit erhältlich
  • 23. §  Koprozessoren für AI/Machine Learning FPGA, GPGPU, Tensor-Einheiten in „normaler“ CPU §  persistentes Memory NVMeoF / NVDIMM hat Latenzen nahe DIMMs „Storage Class Memory“ (SCM) §  SoC I/O möglichst nahe an der CPU, hohe Bandbreite, geringe Latenz §  Software in Silicon Funktionseinheiten für spezielle Anwendungsfälle Glaskugelkaffeesatz
  • 24. §  c‘t Prozessorgeflüster zweiwöchentliche Kolumne, auch online (kostenfrei) §  The Register und The Next Platform https://www.theregister.co.uk https://www.nextplatform.com/ §  Golem https://www.golem.de §  Fach- und Lehrbücher zu Prozessor- und Computerarchitektur nachfragen bei wolfgang.stief@boston-it.de Zum Weiterlesen
  • 25. Werbeblock – Boston Solution Day 2017 §  Mittwoch, 28. Juni 2017, Gutsgasthof Stangl, Neufarn bei Anzing https://www.boston-it.de/news/events/uebersicht-bstd17/ §  Fachvorträge und Ausstellung - Erfolgreiche IoT-Geschäftsmodelle – Chancen & Gestaltungsoptionen - Blockchain & Crypto Währungen - Neues aus den Boston Labs - NDA Showroom: Intel Purley Plattform, IBM Power mit Nvidia GPU u. a.