NASA Ames: Supercomputer der nächsten Generation namens „Aitken“

Das erste der 12 Module von Aitken basiert auf skalierbaren Intel® Xeon® Prozessoren der 2. Generation und nutzt lokale klimabasierte Luftkühlung.

Auf einen Blick:

  • Das Ames Research Center der NASA, eines von zehn NASA-Feldzentren, führt erstklassige Forschung und Entwicklung in den Bereichen Luftfahrt, Erkundungstechnik und Wissenschaft durch, abgestimmt auf die Kernfunktionen des Zentrums.

  • Nachdem das vorhandene HPC-Rechenzentrum zu klein geworden war, begann die NASA Advanced Supercomputing Division von NASA Ames mit der Einrichtung einer containerisierten Architektur unter Verwendung von skalierbaren Intel® Xeon® Prozessoren der 2. Generation.

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Kurzübersicht:

Nachdem das vorhandene Rechenzentrum für High Performance Computing (HPC) zu klein geworden war, begann die NASA Advanced Supercomputing (NAS) Division mit der Einrichtung eines großen Petascale-Systems namens Aitken (des nächsten Flagship-Supercomputers). Dabei kam eine containerisierte Architektur mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation zum Einsatz. Die neuen Intel® Prozessoren werden es Wissenschaftlern erlauben, Forschungsarbeiten zu erledigen, die mit vorhandenen Geräten nicht möglich waren. Dazu gehören z. B. die längere Ausführung von Modellen und eine schnellere Bereitstellung von detaillierten Simulationsergebnissen. Das modulare Rechendesign umfasste die Prototypenerstellung für einen neuen Ansatz mit containerbasierten Rechensystemen unter Verwendung eines Prototypen-Clusters namens Electra. Das neue Design nutzt die Leistung und Skalierbarkeit der Intel® Xeon® Gold 6248 Prozessoren der 2. Generation sowie das gemäßigte Klima vor Ort zur Kühlung der Systeme. Das neue Rechenzentrum beherbergt jetzt Container mit Electra und die frühen Stufen von Aitken; dieses System soll in den kommenden Jahren erweitert werden.

Herausforderung

Großforschung erfordert große Rechenkapazitäten. Angesichts von Missionen, die Bereiche wie Aeronautik, Astronomie, Ozeanographie und menschliche Weltraumforschung umfassen, muss NASA Ames sehr große Rechenaufgaben erledigen. Der 2008 installierte Supercomputer Pleiades war damals einer der schnellsten der Welt. Nach zahlreichen Erweiterungen beträgt die theoretische Spitzenleistung des Clusters heute 7,24 petaFLOPS, was bedeutet, dass er nach wie vor der leistungsfähigste Cluster der NAS-Einrichtung ist.

NASA unterstützt viele andere High Performance Computing (HPC)-Ressourcen neben Pleiades. Da ein immer gründlicheres Verständnis bezüglich unserer Welt, des Universums sowie zwecks modernerer Raumfahrtmissionen (wie Artemis, der Mission zum Mond), und dem Space Launch System (SLS), um Menschen dorthin zu befördern, erforderlich war, benötigte die NASA zusätzliche Rechenleistung.

Die aktuelle Anlage von NAS besteht aus einem 6-Megawatt-Gebäude und ist voll ausgelastet. Für das Hinzufügen von CPU-Zyklen ermittelte das Team, das von Bill Thigpen, Assistant Division Chief of HPC Operations bei der NAS Division, geleitet wurde, dass man einige Zyklen entfernen müsse, um neuen Platz zu schaffen. Das bedeutet, dass das Team alle bisherigen Beschaffungen nicht vollständig nutzen kann. Nach dem Evaluieren verschiedener Optionen kam man zu dem Schluss, dass eine neue Anlage erforderlich sein würde.

Da die NASA ein immer gründlicheres Verständnis der Welt, des Universums und modernerer Missionen erforderte, benötigte man zusätzliche Rechenkapazitäten und entschied sich für ein HPE SGI 8600-System auf Grundlage von Intel® Xeon® Gold Prozessoren. (Foto mit freundlicher Genehmigung der NASA)

Lösung

Etwa ein Drittel des Strombedarfs der aktuellen NAS-Anlage geht in die Kühlung (Kühlmaschinen, Klimaschränke usw.) und der Rest in das Computing. Das entspricht einer Power Usage Effectiveness (PUE) von 1,33, was laut NAS-Managern bei heutiger Technik ein akzeptabler Wert ist. Doch angesichts des Standorts von NASA AMES an der Westküste der USA mit idealen Klimabedingungen glaubte man, durch richtige Nutzung der Umweltvorteile den Stromverbrauch reduzieren zu können.

Containerarchitektur und Luftkühlung sorgen für geringere Kosten

Daher sah sich die NASA sowohl einen neuen Standort als auch eine modulare Architektur an, bei der spezielle Computercontainer zur Aufnahme der HPC-Systeme zum Einsatz kommen. Die neue Anlage würde sich auf einem 0,4 Hektar großen Grundstück mit einer verfügbaren Leistung von 30 Megawatt befinden. Die NASA fand heraus, dass eine modulare Architektur inkl. Containern unter Nutzung des gemäßigten Klimas vor Ort ggf. eine genauere Kontrolle über die Rechenumgebung erlauben und Kühlmaschinen überflüssig machen könnte. Allerdings musste ermittelt werden, ob ein nahtlos verknüpfter Cluster über verschiedene Container hinweg möglich ist. Es gab zwei wichtigen Fragen: Würden sich Geräte mit der Luft der umliegenden Umgebung kühlen und Kühlmaschinen eliminieren lassen? Und würde sich ein modulares System als nahtlos gekoppelter Cluster zur Ausführung der größten Rechenaufgaben eignen? Ein Prototyp würde bei der Beantwortung dieser Fragen helfen.

Das Team der NASA wandte sich mit der Bitte an die Anbieter-Community, eine Lösung zu entwickeln, die alles enthalten würde – von den Containern bis hin zum Strom- und Rechensystem. HPE gewann das Projekt, wobei Schneider Electric für die Netzwerkanbindung verantwortlich sein würde.

Das Prototypenystem, nach einem der Sterne im Sternenhaufen Pleiades „Electra“ genannt, wurde in zwei Rechenmodulen gebaut (jeder Container ist ein Modul). Jeder Container kann vier individuelle Rechencluster (E-Cells genannt) unterstützen. Mit dem ersten, im Jahr 2016 erbauten Modul ließ sich untersuchen, ob eine Kühlung ohne Kühlmaschinen möglich sein würde. Das Modul beinhaltete 1.152 Knoten mit Intel® Xeon® E5-2680 v4 Prozessoren (Dual Socket) und verbrauchte 500 Kilowatt Rechenleistung bei einem PUE-Wert von 1,025. Das 2017 geschaffene zweite Modul, das aus 1.152 Dual-Socket-Knoten mit Intel® Xeon® Gold 6148 Prozessoren besteht, bietet eine deutlich dichtere Rechenleistung von etwa 1,2 Megawatt mit einem PUE-Wert von etwa 1,04. Mit dem zweiten Modul wurde evaluiert, ob sich mehrere Module eng in einem Computer mit High-End-Kapazität verbinden lassen würden. Der Electra-Prototyp machte dem Team deutlich, dass eine modulare Architektur beide Ziele erfüllen würde, während sich im Vergleich zu anderen Anlagen gleichzeitig rund 91 Prozent des Strombedarfs und 96 Prozent des Wasserbedarfs einsparen ließen.

Vorläufige Ergebnisse aus einer hochauflösenden GEOS/ECCO-Simulation mit Darstellung von Verdampfung (rote Farben) und Niederschlag (blaue Farben) über dem Ozean. (Foto mit freundlicher Genehmigung der NASA)

Die Entstehung von Aitken

Nachdem sich der modulare Ansatz bewährt hatte, schritt die NASA mit der nächsten Phase der Erweiterung der NAS-Anlage fort. Das Ziel war die Schaffung des nächsten Flagship-Supercomputers der Behörde namens Aitken, benannt nach dem amerikanischen Astronomen Robert Grant Aitken. Das neue System würde im Laufe der Zeit stufenweise eingerichtet werden – unter Einsatz der neuesten fortschrittlichen Techniken, um sehr hohe Rechenkapazität zu ermöglichen.

Jedes Modul kann zwölf E-Cells mit jeweils 288 Rechenknoten aufnehmen und für seine eigene Kühlung sorgen. Die ersten vier E-Cells von Aitken wurden 2019 bereitgestellt. Verwendet werden 20-Kern Intel® Xeon® Gold 6248 Prozessoren mit 40 Kernen pro Knoten, was insgesamt 46.080 Kerne und eine Rechenleistung von 3,69 PetaFLOPS (theoretischer Spitzenwert) ergibt.

Angesichts der 30 Megawatt, die in der neuen Anlage verfügbar sind, besteht Potenzial für Erweiterungen. Aktuell bietet Aitken fast vier PetaFLOPS an theoretischer Rechenleistung in einer einzigen Rechenzelle. Jedes Modul kann vier davon unterstützen; ausgelegt ist Aitken auf zwölf Module.

Das bedeutet, dass Aitken heute nur 1/36 seiner geplanten Größe hat und dennoch bereits fast vier PetaFLOPS bereitstellt. Aitken wird in den nächsten Jahren erweitert, genauso wie Pleiades seit 2008 kontinuierlich weiterentwickelt wurde. Wenn der Cluster heute mit der gleichen Kapazität bestückt würde, die er aktuell hat, würde jedes Modul 11,07 PetaFLOPS Rechenleistung bieten – bei einer Gesamtleistung des Clusters von über 133 PetaFLOPS. Damit lassen sich viele große Forschungsaufgaben unterstützen.

Ergebnis

Aitken wurde für eine Vielzahl von Modellierungs- und Simulationsaufgaben entwickelt. Mit Intel® Xeon® Gold 6248 Prozessoren der 2. Generation können Forscher Rechenaufgaben erledigen, die mit älterer Technik nicht möglich waren. Sie können die Genauigkeit ihrer Modelle verbessern, um präzisere Einblicke in das jeweilige Problem zu erhalten. Mit den Prozessoren der neuesten Generation können Wissenschaftler Aufträge für detailliertere Ergebnisse länger ausführen.

Aitken steckt noch in den Kinderschuhen. Zwar nutzt die NASA keine einzelnen Computer für einzelne Forschungsgebiete, doch wurden auf Aitken und Electra bereits zahlreiche Forschungsaufgaben ausgeführt. Menschen, die mit Artemis und dem neuen SLS arbeiten, haben Aufträge in diesen Clustern erledigt.

Außerdem wurde viel Luftfahrtforschung (von der Lärmreduzierung bis hin zu neuen Flugzeugtypen und fortschrittlicher Mobilität in der Luft) auf Electra ausgeführt.

Arbeit auf Electra bringt Aeronautik voran

Der NASA-Forscher Neil Chaderjian hat Electra verwendet, um besser zu verstehen, warum Drehflügler wie Hubschrauber im Vorwärtsflug zurückgehalten werden, da sie eine dynamische Abreißgeschwindigkeit erreichen, die durch Blade Vortex Interaction (BVI) verursacht wird. Seine Arbeit mit fortschrittlichen Computational Fluid Dynamics (CFD)-Simulationen für Drehflügler unter Verwendung von Electra hat einige erste Beobachtungen und Entdeckungen im Bereich BVI ermöglicht. Die Ergebnisse werden mit den Entwickler-Communitys für Drehflügler geteilt, um dabei zu helfen, sicherere, schnellere und energieeffizientere Drehflügler zu entwickeln.

Außerdem hat Electra Luftfahrtforschung für Flugzeugdesigns der nächsten Generation unterstützt, wie z. B. den Transonic Truss-Braced Wing (TTBW), das elektrisch betriebene Flugzeug X-57 der NASA und das X-59 QueSST mit leiser Überschalltechnik.

NASA-Wissenschaftler nutzen Electra zudem, um Erdsystemmodelle der nächsten Generation zu entwickeln. Beispielsweise haben sie zwei führende NASA-Modelle, das Goddard Earth Observing System (GEOS) und das Estimating the Circulation and Climate of the Ocean (ECCO), miteinander kombiniert, um für erste Ergebnisse das Wetter und Klima der Erde mit beispielloser Detailgenauigkeit zu simulieren. Electra und Aitken werden es den GEOS- und ECCO-Teams ermöglichen, NASA-Kapazitäten für die nahtlose Simulation, Schätzung und Vorhersage von Wetter und Klima erheblich zu verbessern.

Aktuell ist Electra noch größer als Aitken, doch mit der Erweiterung des neuen Flagship-Systems wird es zur leistungsfähigsten Rechenressource der NASA werden. Dank der modularen Architektur wird die NASA weniger für Kühlung ausgeben müssen und so mehr Rechenleistung bereitstellen können. Auf diese Weise erhalten Wissenschaftler Rechenressourcen, die neuartige und detaillierte Simulationen erlauben, die bislang nicht möglich waren.

Zusammenfassung

NASA Ames benötigte mehr Rechenkapazität, als die vorhandene Anlage aufwies. Darum werden HPC-Ressourcen mit einer modularen Rechenarchitektur erweitert, die von HPE gebaut wurde und das gemäßigte Klima in der San Francisco Bay nutzt, um ein effizienteres Rechenzentrum mit einem PUE-Wert zwischen 1,03 und 1,04 zu schaffen. Das erste in die neue Anlage integrierte System war ein Prototypensystem mit dem Namen Electra, das in zwei Containern untergebracht war und 4,79 PetaFLOPS (theoretischer Spitzenwert) bot. Nachdem sich der neue Ansatz bewährt hatte, begann die NASA mit der Entwicklung von Aitken, dem Flagship-Supercomputer der nächsten Generation, der in den kommenden Jahren erweitert werden soll. Das erste Modul von Aitken ist mit Intel® Xeon® Gold 6248 Prozessoren zu einem Drittel bestückt. Es bietet 3,69 PetaFLOPS Leistung (theoretische Spitzenleistung). Nach der Fertigstellung wird Aitken 12 Rechenmodule aufweisen und leistungsstarke Berechnungen erlauben, die mit vorheriger Technik nicht möglich waren.

Bestandteile des Aitken-Supercomputers:

  • Intel® Xeon® Gold 6248 Prozessor (20 Kerne)
  • 1.152 Knoten (erstes Modul gebaut, nur zu 1/3 bestückt)
  • Entwickelt von Hewlett Packard Enterprise (HPE) auf Basis des HPE SGI 8600 Systems
  • Nutzt das lokale Klima für Kühlung und hat einen PUE-Wert von 1,03

PDF herunterladen

Informationen über zugehörige Produkte und Lösungen