Jülich: Modulare Supercomputing-Architektur

Gemeinsames Entwicklungsprojekt von sechs wissenschaftlichen Instituten, Intel und Megware bringt voll funktionsfähigen, energieeffizienten Prototypen hervor.

Auf einen Blick:

  • Das Jülich Supercomputing Centre (JSC) ist eines der führenden Forschungszentren für High-Performance-Computing (HPC) in Europa. Im Rahmen eines von der EU geförderten Projekts definiert es die Zukunft des Supercomputing neu.

  • Drei Verarbeitungsmodule nutzen Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe. Eines der Module nutzt die Intel® Optane™ Technik als DRAM-Alternative und als ultraschnelles SSD sowie spezielle Grafikadapter (GPU) und Intel® FPGA-PACs (FPGA Programmable Accelerator Cards), die sich je nach Anwendung individuell programmieren lassen.

author-image

Von

Forschungsinstitute wie das Jülich Supercomputing Centre (JSC), eines der führenden Forschungszentren für High-Performance-Computing (HPC) in Europa, definieren die Zukunft des Supercomputing im Rahmen eines von der EU geförderten Projekts neu. Die HPC-Lösung, die derzeit entwickelt wird, ist Teil des von der EU geförderten F&E-Gemeinschaftsprojekts DEEP-EST (Dynamical Exascale Entry Platform – Extreme Scale Technologies). Mit einem Budget von 15 Mio. Euro wird im Rahmen des DEEP-EST ein voll funktionsfähiger energieeffizienter Prototyp für modulare Supercomputer-Architektur (MSA) entwickelt und aufgebaut.

Modulare Supercomputer-Architektur (MSA)

Das DEEP-EST-MSA-System besteht aus drei Verarbeitungsmodulen: dem für allgemeine Zwecke ausgelegten Cluster-Modul (CM), dem Extreme-Scale-Booster-Modul (ESB) sowie dem Data-Analytics-Modul (DAM). In allen drei Verarbeitungsmodulen kommen Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe zum Einsatz. Das DAM nutzt die neue Intel® Optane™ Technik als DRAM-Alternative und als ultraschnelles SSD. Darüber hinaus werden im DAM spezielle Grafikadapter (GPU) und Intel® FPGA-PACs (FPGA Programmable Accelerator Cards) eingesetzt, die sich je nach Anwendung individuell programmieren lassen. Alle Komponenten wurden durch den auf HPC spezialisierten Intel-Partner Megware effizient kombiniert.

Kurz gesagt besteht der Hauptvorteil des DAM in der Bereitstellung enorm großer Arbeitsspeicher- und Rechenleistung, die genau auf die entsprechenden Teile der jeweiligen Anwendungen ausgerichtet sind. Insbesondere Anwendungen für leistungsstarke Datenanalysen (High-Performance-Datenanalyse: HPDA) und maschinelles Lernen (ML) nutzen große Speicherarrays, die im Gegensatz zu herkömmlichen HPC-Anwendungen zufällig und nicht linear adressiert sind. Der modulare Ansatz, der alle Komponenten über ein föderiertes Netzwerk verbindet, macht es unnötig, alle Knoten mit hoher RAM-Kapazität und Beschleunigungsmodulen wie GPUs und FPGAs auszustatten. So werden sowohl der Stromverbrauch als auch die Kosten reduziert. Während eine traditionelle monolithische Architektur alle möglichen Anwendungsszenarien auf derselben Ziel-Hardware verarbeitet, nutzt ein modularer Supercomputer individuell zugewiesene Knoten und Module mit spezifischen Funktionen, genau wie das DMA für HPDA- und ML-Workloads.

Anforderungsanalyse mit umfassendem Co-Design-Ansatz

Das DEEP-EST-Projekt begann Mitte 2017 mit umfassenden Anforderungsanalysen und Überlegungen zur Computertechnik. Mit dem heutigen Tag sind sowohl das Cluster-Modul als auch das Data-Analytics-Modul fertiggestellt und in Betrieb. Der Extreme Scale Booster wird Mitte 2020 folgen.

Forschung und Entwicklung im Bereich des High-Performance-Computing ist Teamarbeit. DEEP-EST vereint 16 Partner innerhalb der EU im Rahmen des Projekts, das vom Jülich Supercomputing Centre geleitet wird. Darunter befinden sich sechs wissenschaftliche Institute, die den Anwendungsteil des Projekts abdecken, sowie, neben Intel, der Supercomputer-Experte Megware, der die eigentlichen Hardware-Module baut. Zu den weiteren Partnern gehören bekannte Namen wie Astron, das CERN in Genf, die University of Edinburgh, das Barcelona Supercomputing Center (BSC) und das Leibniz-Rechenzentrum (LRZ).

Ein solides Fundament für rechnerischen Erfolg: das Allzweck-Cluster-Modul

Das Cluster-Modul bildet die Basis für die gesamte modulare Supercomputer-Architektur. Beim Design des Moduls verfolgten die Entwickler das Ziel, möglichst zuverlässige Rechenleistung für möglichst unterschiedliche Aufgaben bereitzustellen. Jede Anwendung muss in der Lage sein, ausreichend gute Ergebnisse zu liefern, ohne speziell angepasst oder optimiert zu werden. Die maximale Pro-Thread-Leistung war insbesondere für Fließkomma- und Integerberechnungen von Bedeutung, da diese von allen Anwendungen intensiv verwendet werden, egal wie gut sie sich parallelisieren lassen.

Eine weitere Vorgabe für das Cluster-Modul bestand darin, dass es mit allen allgemein verwendeten Software-Entwicklungsumgebungen und Stacks im HPC gut funktioniert. Während HPC den Schwerpunkt im Allgemeinen auf eine begrenzte Anzahl von Programmiermodellen und APIs wie MPI, OpenMP, OpenCL und CUDA legt, setzen Anwendungen für die Datenanalyse nun auf ein breites Spektrum von Programmiersprachen und Frameworks. Diese reichen von Python über R, Caffe, TensorFlow Keras und Theano bis hin zu Apache Spark. Auch wenn das Data-Analytics-Modul die Hauptlast der Analyseaufgaben tragen wird, erwarten die Entwickler, dass der HPDA-Code auf dem Cluster-Modul entwickelt wird.

Die aktuelle Spezifikation sieht für die 50-CM-Knoten zwei Intel® Xeon® Gold 6146 Prozessoren mit jeweils 12 Kernen, einer Taktfrequenz von 3,2 GHz und 24,75 MB L3-Cache vor. 192 GB DDR4-RAM bieten in Verbindung mit Intel® NVMe-PCIe-Gen3-SSDs mehr als genügend Arbeitsspeicher für alle Verarbeitungsaufgaben.

Jeder Cluster-Knoten kann über vier PCIe-Gen3-Schnittstellen Daten auf die angeschlossenen SSDs schreiben, mit einem Durchsatz von rund 1,0 GByte/s. Auf diese Weise können Anwendungen, die auf mehrere Knoten verteilt sind, beinahe lineare Geschwindigkeitssteigerungen für I/O-Operationen erzielen. Für das Prototypensystem implementierte Megware in einem 6-HE-Gehäuse je zehn Knoten. Berücksichtigt man den Platz, der für die Kühlung, die Stromversorgung und die InfiniBand-Switches benötigt wird, werden bis zu 50 Knoten in ein voll bestücktes, effizient warmwassergekühltes Rack passen.

Experte für maschinelles Lernen: das Data-Analytics-Modul (DAM)

Die Hauptaufgabe des DAM besteht darin, Datenanalyseaufgaben so schnell wie möglich auszuführen, wodurch sich das Modul für maschinelles Lernen, künstliche Intelligenz und Deep Learning ideal eignet. Obwohl es sich um ein spezialisiertes Modul handelt, haben die Entwickler auf kostspielige speziell entwickelte Komponenten verzichtet und in erster Linie Standardprodukte wie Grafik- und FPGA-Karten eingesetzt. Ein wesentlicher Bestandteil ist die Intel Optane Technik: Über PCIe angeschlossene SSDs bieten schnellen Datenspeicher und jeder Knoten verfügt neben 384 GB DDR4-RAM über bis zu 3 TB persistenten Intel® Optane™ Speicher (PMem). Persistenter Intel Optane Speicher lässt sich in zwei Modi einsetzen: als nicht-flüchtiger, schneller Byte-adressierbarer Arbeitsspeicher (App-Direct-Modus) oder als Erweiterung des installierten DRAM um flüchtigen, transparenten Speicher (Memory-Modus), womit Anwendungen bis zu 3 TB RAM mit beinahe an DRAM heranreichender Leistung zur Verfügung stehen. Persistenter Intel Optane Speicher bietet extrem geringe Latenz und ein sehr gutes Verhältnis zwischen Preis und Kapazität, wodurch der Speicher die Anforderungen in den Bereichen HPC und HPDA optimal erfüllt.

Darüber hinaus kann jeder Knoten mit zwei 1,5 TB Intel® Optane™ SSDs der für Rechenzentren ausgelegten Produktreihe ausgestattet werden. Diese sind je nach Anwendung als temporäre USER-Partition, als Checkpoint/Reboot-Memory oder als paralleles Dateisystem BeeOND (BeeGFS on Demand) konfiguriert.

Das DAM besteht aus 16 Knoten, die über jeweils zwei Intel® Xeon® Platinum 8260M Prozessoren (mit je 24 Kernen, 2,4 GHz Taktfrequenz und 35,75 MB L3-Cache) verfügen und über ein 40-GbE-Cluster-Fabric angeschlossen sind. Ein 100-Gbit/s-EXTOLL-Interconnect mit Tourmalet-PCIe-Gen3-Erweiterungskarten bildet den krönenden Abschluss der Hardware. Das DAM wurde speziell für die Ausführung von HPDA-Codes konzipiert, wie beispielsweise unbeaufsichtigtes Clustering (DBSCAN oder KMeans), beaufsichtigtes Clustering mit Support Vector Machines (SVMs) oder Random Forests und natürlich Deep Learning. Ein praktisches Beispiel für diese Art von Anwendung sind die Co-Design-Workloads für Bildanalyse der KU Leuven und der Universität von Island.

Homogene Arbeitsspeicherbereiche für optimale Leistung beim maschinellen Lernen

HPC-Anwendungen lesen und verarbeiten Daten in der Regel sequenziell als große Arrays. Anwendungen für maschinelles Lernen und Datenanalyse nutzen jedoch wahllose Speicherzugriffe. Hierbei werden mehr Operationen auf kleinen Dateneinheiten ausgeführt und es werden kleinere Datentypen verwendet. Aufgrund dieser spezifischen Anforderungen, die von herkömmlicher HPC-Architektur nicht erfüllt werden, ist das DAM extrem wichtig geworden, denn es verfügt über FPGAs, welche den Anforderungen perfekt entsprechen. Ein skalierbares Cluster-System wie das DAM ist eine energieeffiziente Lösung für parallele Anwendungen, da die von einer Aufgabe benötigte Arbeitsspeicherkapazität durch die Zuweisung einer passenden Anzahl von Knoten bereitgestellt werden kann.

Für Aufgaben mit HPDA und ML spielt der I/O-Durchsatz eine wesentlich größere Rolle als für traditionelle Simulationen. Dennoch ist starke Integer-Rechenleistung erforderlich, um von den Optimierungen zu profitieren, die in vielen Algorithmen für maschinelles Lernen eingebaut sind, zum Beispiel im Co-Design-Workload des Partners KU Leuven. Das DAM-Design ermöglicht die effiziente Ausführung arbeitsspeicherintensiver Anwendungen im Bereich der Bioinformatik und des maschinellen Lernens. Für den zeitaufwändigen Modellierungsprozess von HPDA-Anwendungen werden häufig große Datenmengen wiederverwendet. Mit persistentem Speicher wie Intel Optane können diese Datenmengen, auf die wiederholt zugegriffen wird, deutlich schneller bereitgestellt werden als mit herkömmlicher Technik für Datenspeicher oder flüchtigen Arbeitsspeicher.

Die im DAM verwendeten Intel FPGA-PAC-Karten D5005 (PCIe Gen3 x16) sind frei programmierbar und stellen die einfachste Möglichkeit dar, bestehende ML-Frameworks zu verwenden. Für Intel FPGA-PACs können Entwickler aus einer Vielzahl bereits optimierter Bibliotheken und Frameworks wählen. Da eine große Menge bestehender und getesteter Software verfügbar ist, kann die Implementierung von Workloads auf dem DAM schneller erfolgen. Die Notwendigkeit individueller Anpassungen und Code-Entwicklung ist auf ein Minimum reduziert. Bei Bedarf können Nutzer dennoch angepassten Code erstellen, wenn beispielsweise bestehende Software eine Anwendung noch nicht abgedeckt. Die Auswahl beginnt bei höheren Programmiersprachen wie OpenCL und Data Parallel C++ (Teil des Intel® oneAPI), kann aber auch eine extrem Hardware-orientierte Sprache wie VHDL umfassen. Darüber hinaus nutzen die Intel FPGA-PACs den Intel® Acceleration Stack für die Intel Xeon CPU, wobei FPGAs optimierte und vereinfachte Hardware-Schnittstellen und Software-Programmierschnittstellen, kurz APIs (Application Programming Interfaces), bereitstellen, um Entwicklern Zeit zu sparen, damit sie sich auf den eigentlichen Mehrwert ihrer Lösung konzentrieren können. Die für das Testen der modularen Supercomputing-Architektur verwendeten Workloads nutzen bereits beide Ansätze – bestehende Frameworks und speziell angepasste Software.

Bisherige Ergebnisse und nächste Schritte

Obwohl das Projekt noch nicht abgeschlossen ist, zeigen die gesammelten Erfahrungen bereits großes Potenzial für künftige Anwendungen und für andere institutionelle sowie private und betriebliche Forschungseinrichtungen. Die Projektpartner erwarten für geeignete Workloads eine signifikante Leistungssteigerung gegenüber monolithischen Systemen. Dies gilt für Workloads, die von der Berechnung auf spezialisierten Modulen profitieren. Alle beteiligten Partner werden vollen Zugang zu allen Messungen und Testergebnissen haben, sodass jede Einrichtung individuelle Varianten der Architektur testen und optimieren kann. Das Endergebnis sollten vorgefertigte Software-Pakete sein, die bereits die meisten Anpassungen für bestimmte Workloads enthalten und noch schneller implementiert werden können.

Das JSC wird seine zukünftigen Beschaffungen nach dem DEEP-EST-Konzept ausrichten. Bereits Mitte 2020 ist die Installation eines Booster-Moduls für das Produktionssystem JUWELS geplant. Selbst die aktuelle DEEP-EST-Test-Plattform hat Anwender von ihrer Eignung für ein sehr gutes universelles Blueprint-Design überzeugt. Während Wissenschaftler der beteiligten Partneruniversitäten und -institute die Plattform noch evaluieren, zeigt das breite Spektrum von Anwendungen und deren Tauglichkeit, dass die modulare Supercomputer-Architektur auf dem richtigen Weg zu einer brillanten HPC-Zukunft ist.

Effiziente Unterstützung vieler wissenschaftlicher Anwendungsbereiche

Eine der Hauptanforderungen an die modulare Supercomputer-Architektur (MSA) ist die effiziente Unterstützung möglichst vieler wissenschaftlicher Anwendungsbereiche. Mehrere wichtige Partner nutzen den Prototypen am Supercomputing Centre in Jülich bereits für Referenzprojekte:

Radioastronomie, Astron
Weltweit betrachten große Antennenarrays das Universum über Radiowellen. Die von den einzelnen Antennen empfangenen Daten müssen zusammengeführt und analysiert werden. Die Verarbeitung erfolgt sequenziell. Zwei dieser Schritte sind besonders intensiv: die Zusammenführung der Daten (Correlator) und die Berechnung des Bildes (Imager). Correlator und Imager wurden auf mehrere Plattformen portiert (GPUs, Intel Xeon CPUs, DSP und FPGA). Mithilfe des MSA-Prototyps können die Forscher die für jede Aufgabe beste Plattform und den energieeffizientesten Ansatz ermitteln.

Weltraumwetter, Katholieke Universiteit Leuven
Die Sonne ist eine riesige Plasmakugel, eine Ansammlung von Molekülen, die so heiß sind, dass Elektronen von Atomkernen getrennt werden. Diese elektrisch aufgeladenen Teilchen sind in den starken Magnetfeldern unseres Sterns gefangen. Die Magnetfelder dehnen sich allmählich in das Sonnensystem aus und tragen das Plasma nach außen. Wenn sie auf der Sonnenoberfläche zu stark werden, können sie riesige magnetische Eruptionen erzeugen, sogenannte Flares. Magnetische Felder und Plasmaeruptionen können Störungen in elektronischen Geräten verursachen und Satelliten in ihrer Funktion beeinträchtigen. Mit dem neuen Simulationsmodell versucht die Universität Leuven, die Auswirkungen der Sonnenaktivität auf unseren Planeten vorherzusagen. Ein auf dem DAM laufender ML-Code wird verwendet, um die Sonne und die Erde zu verbinden. Anschließend wird ein traditioneller HPC-Code, der auf den anderen Modulen läuft, eingesetzt, um die Plasmaumgebung der Erde zu studieren.

Neurowissenschaften, Universität für Umwelt- und Biowissenschaften, Ås (Norwegen)
Mit der Software NEST werden neuronale Netzwerkmodelle simuliert, die Netzwerke auf der Ebene vereinfachter Neuronen und Synapsen darstellen, welche über typische elektrische Impulse, sogenannte Spikes, interagieren. Diese Simulationen sind für ein breites Spektrum von Forschungsthemen nützlich, von neuen Lernparadigmen für die Neurorobotik über Modelle von Tieren und schließlich sogar das menschliche Gehirn. NEST selbst schöpft die Möglichkeiten herkömmlicher Supercomputer-Architekturen sehr gut aus, hinterlässt den Wissenschaftlern jedoch enorme Mengen an Ausgabedaten, die weiterverarbeitet und analysiert werden müssen. Mit dem MSA können die von NEST auf dem Rechenmodul generierten Daten direkt in das auf dem DAM laufende statistische Analysetool Elephant eingespeist werden, um aus den Rohdaten relevante Signale zu extrahieren, während eine umfangreiche Gehirnsimulation ausgeführt wird.

Hochenergiephysik, CERN Genf
Der Large Hadron Collider (LHC) des CERN ist der weltweit größte und leistungsstärkste Teilchenbeschleuniger. Teilchen werden beinahe auf Lichtgeschwindigkeit beschleunigt und dann zur Kollision gebracht, wobei riesige Datenmengen generiert werden. Kollisionsereignisse werden anhand der Daten riesiger Detektoren rekonstruiert. Das DAM hilft bei der Zuordnung der entsprechenden Energien zu den neu entstandenen Teilchen und bei der Rekonstruktion der Kollision, indem alle einzelnen Datenpunkte kombiniert werden. Diese Aufgabe ist perfekt für das DAM geeignet, da es große Datenmengen ohne langwierige Einrichtungs- und Vorformatierungsprozesse verarbeiten kann.

Datenanalyse in der Geowissenschaft, Universität Island
Die Fernerkundung, beispielsweise über Satellitensensoren oder laserbasiertes LiDAR (Light Detection and Ranging), wird in vielen Bereichen eingesetzt. Einer davon ist die Geowissenschaft. Diese wissenschaftliche Disziplin beobachtet die Erde hinsichtlich der Landoberfläche, um beispielsweise Umweltveränderungen aufzuzeigen. Maschinelles Lernen wird eingesetzt, um die Klassifizierung der Landoberfläche anhand von Satellitenbildern zu automatisieren und um LiDAR-Punktwolken zu gruppieren und so Objekte zu trennen. Das Training von neuronalen Netzwerken und Support Vector Machines profitiert von den schnellen und energieeffizienten Beschleunigern und dem riesigen Arbeitsspeicher des DAM.

Highlights des Lösungsansatzes

  • Kombination von Techniken zur Beschleunigung komplexer wissenschaftlicher Simulationen, Datenanalyse und Anwendungen des maschinellen Lernens
  • Ausführen heterogener Anwendungen und Aufgaben auf maßgeschneiderten Rechen- und Arbeitsspeicherressourcen
  • Intel Xeon Platinum 8260M Prozessoren mit VNNI-Anweisungen und Intel FPGA-PAC D5005 für Datenanalyse UND ML-Inferenz
  • Nutzung des persistenten Intel Optane Speichers als RAM-Erweiterung oder ultraschneller persistenter Datenpuffer sowie Intel Optane SSDs als schneller Datenspeicher
  • Schnelle Erweiterungsmöglichkeit um zusätzliche Systemmodule, beispielsweise spezielle Plattformen für künstliche Intelligenz
  • Vollständige Nutzung des gesamten Spektrums an Intel-Tools (Compiler, Analyse, ML-Frameworks) und Bibliotheken (Intel® Math Kernel Library, Intel® Data Analytics Acceleration Library)
  • Mit deutlich geringerem Zeitaufwand und Energieverbrauch zur einsatzbereiten Lösung