Zur Unterstützung von Big Data und Machine Learning Szenarien wurde am Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) der TU Dresden eine neue Speicherlandschaft mit „NVMe Storage“ (2 PB Kapazität und 2 TB/s Bandbreite, <100us Latenz) und „Warm Archive“ auf Basis des S3-Protokolls (10 PB Kapazität und 50 GB/s Bandbreite) aufgebaut. Dr. Michael Kluge vom ZIH (Abteilungsleiter System- und Dienstentwurf) erläutert die besonderen Anforderungen dieses Projektes und berichtet vom Aufbau und Betrieb der Umgebung.
3. Slide 3
Michael Kluge
Nationales Big Data Kompetenzzentrum
Focal point for new research activities
Specialists from computer & domain sciences
Collaborative big data research
4. Slide 4
Michael Kluge
Fokus auf datenintensives Rechnen seit mehr als 15 Jahren
HPC System-Design Expertise:
Hochleistungsrechner-Speicherkomplex
HRSK-I (2007)
Zwei Rechner: Hochleistung+Hochdurchsatz
Knapp 2 GB/s Bandbreite zu Bandlaufwerken
HRSK-II (2015)
Inselkonzept für HPC und Durchsatz
Hohe I/O-Bandbreite
HDD+SSD Dateisysteme
100 GB/s zu drehenden Platten und 1 Mio IOPS
in paralleles Dateisystem
Datenintensives Rechnen am ZIH
6. Slide 6
Michael Kluge
Designkriterien (Benchmarks)
HPC Data Analytics
Anzahl Rechnungen pro
Hauptspeicherzugriff
Möglichst groß, HPC gern
durch Speicherbandbreite
begrenzt
Nicht der entscheidende
Faktor
Zugriffe auf Permanent-
Speicher pro Rechnung
Wird selten detailliert
betrachtet
Wichtig
I/O-Metriken
Typischerweise Bandbreiten,
IOPS auch immer wichtiger
Latenz
Data Management Sinnvoll/nötig Unbedingt nötig
Speicher-Hierarchie Burst Buffer, Kapazität Alles notwendig bis Archiv
8. Slide 8
Michael Kluge
… zum Inselkonzept …
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
StorageC C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
Netz
werk
9. Slide 9
Michael Kluge
… zur Fusion aus HPC und Data Analytics (HPC-DA)
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Login
Staging
Netz
werk
Netz
werk
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
C C C
Netz
werk
Large Archive
NVME
Netz
werk Weltweiter
Zugriff
10. Slide 10
Michael Kluge
HPC-DA Infiniband Fabric
SATA Lustre HTC (929)
SATA Lustre
SSD Lustre
HPC (612)
Archive
EDRswitchlayer
18switches
216 ports FDR
216 ports FDR
Blade
Blade
Blade
Blade
Blade
Blade
HPC (612)
Machine learning
I/O with extreme
high bandwidth,
low latency
Login
Login
Export
Export
2x10GE 10GE
12. Slide 12
Michael Kluge
Node
Deployment-Szenario 1:1 lokal
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Jedes Device wird lokal benutzt
Lokales Filesystem der Wahl
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet werden
z.B. für On-Demand Hadoop-Cluster von relativ beliebiger Größe
Extreme Metadaten-Skalierbarkeit, da lokale Dateisystem da typischerweise unübertroffen sind
C C C
13. Slide 13
Michael Kluge
Node
Deployment-Szenario Raid:1 lokal
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Mehrere SSDs werden remote zu einem virtuellen Device zusammengebaut
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet warden
Lokales Filesystem der Wahl
Redundanz bei Ausfall von NVMe
C C C
Raid Raid
14. Slide 14
Michael Kluge
Node
Deployment-Szenario (Raid oder 1):1 paralleles Dateiystem
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Jedes Device (Raid oder direkt) wird lokal auf einem Compute-Knoten gemountet
Auf den Knoten wird ein paralleles Dateisystem gebaut, z.B. BeeGFS, Lustre oder GeckoFS
Gemeinsamer Datenzugriff aller Knoten
Dateisystem nach Crash eines Compute-Knotens wiederherstellbar
C C C
Paralleles FS
15. Slide 15
Michael Kluge
Paralleles FS
Node
Deployment-Szenario (Raid oder 1):1 paralleles Dateiystem
C C C
C C C
NVME NVME
NodeNVME NVME
NodeNVME NVME
Mehrere SSDs werden remote zu einem virtuellen Device zusammengebaut
Darüber baut man (remote) ein paralleles Dateisystem
Bei Ausfall eines Knotens kann es an einem anderen Knoten wiederverwendet werden
Redundanz bei Ausfall von NVMe
C C C
Raid Raid