Hochleistungsspeichersysteme für Datenanalyse an der TU Dresden (Michael Kluge)

Hochleistungsspeichersysteme für
Datenanalyse an der TU Dresden

Michael Kluge
Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH)
Kompetenzzentrum für
— Paralleles Rechnen
— Datenintensives Rechnen
— Software-Werkzeuge
— Big Data Forschung (ScaDS Dresden/Leipzig)
© Robert Gommlich

Michael Kluge
Nationales Big Data Kompetenzzentrum
Focal point for new research activities
Specialists from computer & domain sciences
Collaborative big data research

Michael Kluge
Fokus auf datenintensives Rechnen seit mehr als 15 Jahren
HPC System-Design Expertise:
Hochleistungsrechner-Speicherkomplex
HRSK-I (2007)
 Zwei Rechner: Hochleistung+Hochdurchsatz
 Knapp 2 GB/s Bandbreite zu Bandlaufwerken
HRSK-II (2015)
 Inselkonzept für HPC und Durchsatz
 Hohe I/O-Bandbreite
 HDD+SSD Dateisysteme
 100 GB/s zu drehenden Platten und 1 Mio IOPS
in paralleles Dateisystem
Datenintensives Rechnen am ZIH

Michael Kluge
— > 40.000 Intel Kerne
— > 20.000 AMD Kerne
— 1408 Power9 Kerne
— 192 GPUs NVidia V100
— 2 PB SSD-Speicher
— 5 PB Scratch Dateisystem
— 10 PB S3-Archiv
— 32 Sockel 48 TB
Hauptspeicher-Maschine
(ausgeschrieben)
Aktuelle HPC Ressourcen
©RobertGemlich2015

Michael Kluge
Designkriterien (Benchmarks)
HPC Data Analytics
Anzahl Rechnungen pro
Hauptspeicherzugriff
Möglichst groß, HPC gern
durch Speicherbandbreite
begrenzt
Nicht der entscheidende
Faktor
Zugriffe auf Permanent-
Speicher pro Rechnung
Wird selten detailliert
betrachtet
Wichtig
I/O-Metriken
Typischerweise Bandbreiten,
IOPS auch immer wichtiger
Latenz
Data Management Sinnvoll/nötig Unbedingt nötig
Speicher-Hierarchie Burst Buffer, Kapazität Alles notwendig bis Archiv

Michael Kluge
Umgestaltung vom reinen Hochleistungsrechner …
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
Storage

Michael Kluge
… zum Inselkonzept …
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
StorageC C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
Netz
werk

Michael Kluge
… zur Fusion aus HPC und Data Analytics (HPC-DA)
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Login
Staging
Netz
werk
Netz
werk
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
Large Archive
NVME
Netz
werk Weltweiter
Zugriff

Michael Kluge
HPC-DA Infiniband Fabric
SATA Lustre HTC (929)
SATA Lustre
SSD Lustre
HPC (612)
Archive
EDRswitchlayer
18switches
216 ports FDR
216 ports FDR
Blade
Blade
Blade
Blade
Blade
Blade
HPC (612)
Machine learning
I/O with extreme
high bandwidth,
low latency
Login
Login
Export
Export
2x10GE 10GE

Michael Kluge
Hardware
— 90 NVMe Knoten
 8x Intel NVMe Datacenter SSD P4610, 3.2 TB,
3,2 GB/s (8x 3.2 =25.6 GB/s)
 2x Infiniband EDR, Mellanox MT27800,
ConnectX-5, PCIe x16, 100 Gbit/s
 2 Sockel Intel Xeon E5-2620 v4 (16 cores, 2.10GHz)
 64 GB RAM
— Bandbreite NVMe = Bandbreite IB
HPC-DA NVMe Knoten
2x EDR IB: 25 GB/s
8x PCIe v3.1 x4
2x PCIe v3.1 x16
8x 3.2 GB/s
2 PB
90 NVME
Knoten
in Summe
2 TB/s
Bandbreite

Michael Kluge
Node
Deployment-Szenario 1:1 lokal
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Jedes Device wird lokal benutzt
Lokales Filesystem der Wahl
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet werden
z.B. für On-Demand Hadoop-Cluster von relativ beliebiger Größe
Extreme Metadaten-Skalierbarkeit, da lokale Dateisystem da typischerweise unübertroffen sind
C C C

Michael Kluge
Node
Deployment-Szenario Raid:1 lokal
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Mehrere SSDs werden remote zu einem virtuellen Device zusammengebaut
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet warden
Lokales Filesystem der Wahl
Redundanz bei Ausfall von NVMe
C C C
Raid Raid

Michael Kluge
Node
Deployment-Szenario (Raid oder 1):1 paralleles Dateiystem
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Jedes Device (Raid oder direkt) wird lokal auf einem Compute-Knoten gemountet
Auf den Knoten wird ein paralleles Dateisystem gebaut, z.B. BeeGFS, Lustre oder GeckoFS
Gemeinsamer Datenzugriff aller Knoten
Dateisystem nach Crash eines Compute-Knotens wiederherstellbar
C C C
Paralleles FS

Michael Kluge
Paralleles FS
Node
Deployment-Szenario (Raid oder 1):1 paralleles Dateiystem
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Mehrere SSDs werden remote zu einem virtuellen Device zusammengebaut
Darüber baut man (remote) ein paralleles Dateisystem
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet werden
Redundanz bei Ausfall von NVMe
C C C
Raid Raid

Michael Kluge
Vision für den Betrieb
©RobertGemlich2015
Nutzer SLURM NVMe S3
Anfrage NVMe Allokation Konfiguration
StageIn
Compute
Compute
Compute
Compute
StageIn fertig
Timeout
StageOut
Freigabe
Kopieren
Kopieren
Freigabe

Michael Kluge
Danke für Ihre Aufmerksamkeit!

Hochleistungsspeichersysteme für Datenanalyse an der TU Dresden (Michael Kluge)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (6)

Ähnlich wie Hochleistungsspeichersysteme für Datenanalyse an der TU Dresden (Michael Kluge)

Ähnlich wie Hochleistungsspeichersysteme für Datenanalyse an der TU Dresden (Michael Kluge) (20)

Mehr von data://disrupted®

Mehr von data://disrupted® (17)

Hochleistungsspeichersysteme für Datenanalyse an der TU Dresden (Michael Kluge)