Kurzübersicht:
Das Texas Advanced Computing Center (TACC) erfindet das Supercomputing in immer größerem Maßstab immer wieder neu, um bahnbrechende Forschung zu ermöglichen und den Wissenschaftlern die benötigten Ressourcen zur Verfügung zu stellen. Frontera, ein 38,75-PetaFLOPs-Cluster, der auf der Top-500-Liste vom Juni 2019 den 5. Platz belegte1, ist sein neuesten Supercomputing-System. In Dell EMC PowerEdge*-Servern bietet Frontera Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe der 2. Generation mit insgesamt fast einer halben Million Kerne.
Herausforderung
Das Texas Advanced Computing Center (TACC) ist eine weltbekannte Einrichtung für Supercomputing, die neue Entdeckungen in einer Reihe wissenschaftlicher Disziplinen und Industriesektoren ermöglicht.
„Unsere Mission beim Texas Advanced Computing Center besteht darin, bahnbrechende neue Rechenfunktionalität bereitzustellen, um neue Arten von wissenschaftlichen Entdeckungen und technischer Forschung zu ermöglichen“, erklärte Dr. Dan Stanzione, Executive Director beim TACC.
Der 2017 implementierte Supercomputer Stampede2 bietet in Dell EMC PowerEdge*-Servern neueste Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe. Der als Hochleistungmaschine konzipierte Stampede2 wird im Laufe seiner Lebensdauer drei- bis viertausend Projekte unterstützen. Aber alle paar Jahre befasst sich das TACC mit der Art der Probleme, die Forscher zu lösen versuchen, und mit der Frage, welche Arten von Architektur für die jeweilige Wissenschaft die beste Unterstützung bieten. Einige dieser Probleme befassen sich mit den „großen Herausforderungen“ unserer Zeit und erfordern Berechnungen in großem Maßstab.
„Wir befassen uns mit Kontroll- und Steuerungsproblemen rund um Fusionsreaktoren“, erklärte Stanzione und liefert einige Beispiele der gewaltigen Forschungsprojekte, die ein neues Maß an Supercomputing-Leistung benötigen werden. „Wir betrachten die Mantelkonvektion als ein Problem, das die gesamte Erde betrifft. Es gibt daher einzelne Simulationen die über den ganzen Planeten hinweg durchgeführt werden.“
Ein solches Ausmaß an Problemen erfordert eine andere Größenordnung von Supercomputern als die des Stampede2.
Überblick über die Hardware und Software des Frontera-Systems.
Lösung
Frontera ist der neueste Supercomputer des TACC. Er wird von der U.S. National Science Foundation mit 60 Mio. US-Dollar unterstützt. Er umfasst ein großes Hauptsystem, das laut Stanzione bis zu 38,71 PetaFLOPs Spitzenleistung liefern wird. Das Hauptsystem basiert auf dem Intel® Xeon® Platinum Prozessor der 2. Generation. Die 8.008 Knoten sind mit jeweils zwei dieser Prozessoren bestückt bieten je 56 Kerne. Darüber hinaus kommt die InfiniBand*-Architektur mit 100 Gbit/s zum Einsatz. Im Vergleich zu früher liefern die 448.448 Kerne dem TACC nun mehr Rechenkapazität und Arbeitsspeicherkapazität.
Durch die Auswahl des neuesten Serverprozessors von Intel bietet Frontera Folgendes:
- Eine höhere Taktfrequenz als vorherige Systeme mit höherer Single-Thread-Leistung.
- Mehr Prozessorkerne, um mehr Threads gleichzeitig auszuführen.
- Mehr Speicherbandbreite zur Datenübertragung an all diese Kerne.
„Frontera wird eine enger gefasste Mission haben als Stampede2“, erklärte Stanzione. „Statt Tausende von Projekten zu unterstützen, werden wir nur wenige hundert haben, die einen außergewöhnlich hohen Rechenbedarf und extrem umfangreiche Berechnungen haben. Frontera wird Probleme lösen, die zu den Projekten mit den allergrößten Herausforderungen im wissenschaftlichen Umfeld zählen. Wir werden Berechnungen mit einer Geschwindigkeit und in einem Maßstab ausführen, die beispiellos sind.“
Frontera wird auch bislang nicht verfügbare neue Technik unterstützen, darunter Intel® Deep Learning Boost (Intel® DL Boost), das für Aufgaben im Bereich künstlicher Intelligenz (KI) ausgelegt ist. Diese neue Technik wird den Designern des TACC-Supercomputers helfen, besser zu verstehen, was für Forscher nützlich ist, damit diese Technik in das nächste, für 2025 geplante TACC-System der nächsten Generation integriert werden kann. Eine Technik, die in diesem Zusammenhang erwähnenswert ist, ist persistenter Intel® Optane™ DC Speicher.
„Persistenter Intel® Optane™ DC Speicher“, erklärte Stanzione, „ hat mehrere einzigartige Eigenschaften, die uns im Vergleich zu traditionellem Arbeits- und Datenspeicher Vorteile bieten. Es gibt zahlreiche potenziell interessante Anwendungsfälle, zum Beispiel sehr, sehr große Speicherknoten – mehrere Terabyte pro Knoten – oder einfache Fehlertoleranz. Wenn ein Server ausfällt, können wir den Zustand des Speichers beibehalten und die Berechnung weiter laufen lassen, anstatt sie über die gesamten 8.008 Knoten, aus denen der Rechner besteht, neu starten zu müssen.“
„Persistenter Intel® Optane™ DC Speicher hat gleich mehrere einzigartige Merkmale, die uns im Vergleich zu geläufigen Arbeits- und Datenspeichern Vorteile bieten.“
Ergebnis
Probleme mit großen Herausforderung erfordern massive Rechenkapazität.
„Das System wird bemerkenswert produktiv sein“, sagte Stanzione. „Wir denken, dass in Bezug auf den echten wissenschaftlichen Durchsatz die drei- oder vierfache Leistung des Vorgängers erreichen werden.“
Physik jenseits des Standardmodells
Mit der Entdeckung des Higgs-Bosons mit dem Large Hadron Collider (LHC) am CERN in Genf war es möglich, das letzte Stück des Standardmodells der Physik an seinen Ort zu rücken. Nun blicken Wissenschaftler auf der ganzen Welt über das Standardmodell hinaus, um ein feineres Gefühl dafür zu bekommen, was die Hochenergie-Teilchenphysik ausmacht. Der LHC – und einer seiner Detektoren namens ATLAS (A Toroidal LHC ApparatuS) – wird wieder im Zentrum dieser Forschung stehen. Das CERN plant, die Zahl der LHC-Kollisionen in den kommenden Jahren um den Faktor zehn zu steigern.
Die LHC erfordert enorme Rechenkapazität, um seine Kollisionen zu deuten. CERN-Wissenschaftler haben Aufgaben auf Stampede2 ausgeführt. Da Frontera nun in Betrieb gegangen ist, wird dem CERN ein deutlich größeres System zur Verfügung stehen, um zu verstehen, was auf dieser subatomaren Ebene geschieht.
„Wir simulieren die Reaktion des Detektors auf ein bestimmtes Physikmodell“, erklärte Robert Gardner, ein Forschungsprofessor am Enrico Fermi Institute der University of Chicago und einer der Leiter der Gruppe für verteilte Rechner der US-ATLAS-Zusammenarbeit.
„Wenn wir die Analyse anhand der tatsächlichen Daten durchführen, können wir bei der Kollision eine gewisse Streuung aufzeichnen, etwa bei der Teilchenmasse, dem Querimpuls oder der ‚fehlenden Energie‘. Wir erhalten die Anzahl der Kandidaten, die uns als Rohdaten zur Verfügung stehen, vom Detektor. Dann vergleichen wir diese mit verschiedenen Arten von Modellen und überprüfen, ob wir die Streuung zuordnen können. Dies liefert uns Hinweise darauf, was möglicherweise bei den Kollisionen tatsächlich geschieht.“
Von der Kernspaltung zur Fusionsenergie
Ein weiterer Bereich, in dem es um globale wissenschaftliche Zusammenarbeit geht, ist die Erschließung neuer Ressourcen zur Deckung des weltweiten Energiebedarfs. Von effizienterer Windenergieerzeugung über Batterieforschung bis hin zu Wasserstoffgewinnung aus Wasser versucht die Wissenschaft, saubere Alternativen zu fossilen Brennstoffen zu finden.
Die Kernfusion – die Verschmelzung von Kernen zur Freisetzung riesiger Energiemengen (wie wir es von der Sonne kennen, um die unserer Erde kreist) – gilt als heiliger Gral der Energieerzeugung, ohne die Nachteile der heutigen Spaltreaktoren. In Frankreich wird ein solcher Reaktor – der International Thermonuclear Experimental Reactor (ITER) – von einem Konsortium aus sieben Regierungen gebaut. Der Reaktor, dessen Fertigstellung für das Jahr 2025 geplant ist, soll 20-mal bis 25-mal mehr Strom produzieren, als er verbraucht.
Ein dringendes Problem für Designer ist es, Störungen größeren Ausmaßes präzise und zuverlässig vorherzusagen – und zu vermeiden. Doch seit Jahren haben die Wissenschaftler Mühe, Physikmodelle und Simulationen mit der Dynamik in einem realen Reaktor in Einklang zu bringen.
„Wenn Sie versuchen, konventionelle theoretische Methoden zu verwenden, die auf Hochleistungsrechnern laufen, werden Sie immer noch nicht in der Lage sein, Vorhersagen zu treffen“, sagte William Tang, Principal Research Physicist am Princeton Plasma Physics Laboratory, dem U.S. DOE National Lab für Kernfusionsstudien. „Sie würden den Effekt von Big-Data-Analysen brauchen, die mit vielen Daten umgehen können, die für Störungen relevant sind.“
Tang und sein Team haben nun künstliche Intelligenz in Betracht gezogen, um das Problem zu lösen. Das Team entwickelte den Fusion Recurrent Neural Net Code (FRNN-Code), der für bessere Vorhersagen Deep Learning einsetzt. Der Code kann Störungsereignisse mit einer Genauigkeit von mehr als 90 Prozent über 30 Millisekunden vor dem Ereignis, das den Störfall auslöst, vorhersagen. Tang wird die neuen Ressourcen von Frontera für Deep Learning nutzen, um seine Forschung mit dem FRNN-Code voranzutreiben und ein Kontrollsystem zu entwickeln, das Unterbrechungen im ITER verhindern kann.
Der Einsatz von Computern für Weltprobleme
Zu den weiteren Herausforderungen, die massive Rechenleistung erfordern, gehören der Einsatz von Präzisionslandwirtschaft und Genomik zur Ernährung der wachsenden Weltbevölkerung und Innovationen, die sauberere Kohleverbrennungsanlagen, welche immer noch eine führende Energiequelle darstellen, ermöglichen.
„Wir brauchen Systeme wie Frontera, um die großen Fragen unserer Zeit zu beantworten, zum Beispiel Nachhaltigkeit im Umweltbereich und erneuerbare Energien“, sagte Professor Gardner. „Wir müssen weiterhin im Bereich der Grenzwissenschaft und allem, was darüber hinausgeht, forschen, und das können wir ohne computergestützte Berechnungen nicht tun.“
Ansicht, die den Gang zwischen zwei Frontera-Serverreihen im TACC-Rechenzentrum zeigt.
Zusammenfassung
Frontera wurde gebaut, um einen neuen, viel größeren Umfang an wissenschaftlichen Berechnungen zu unterstützen, als es dem TACC zuvor möglich war. Die Dell EMC PowerEdge*-Server, die mit Intel® Xeon® Platinum Prozessoren der 2. Generation bestückt sind, werden über annähernd eine halbe Million Rechenkerne verfügen und laut Dan Stanzione, Executive Director bei TACC, eine Spitzenleistung von 38,7 PetaFLOPs erzielen. Der neue Supercomputer bietet Wissenschaftlern auch die Voraussetzungen, um neue Technik wie persistenten Intel® Optane™ DC Speicher zu testen und zu beurteilen, wie das Supercomputing-Center diese Technik in ihren Supercomputer der nächsten Generation integrieren kann.
Frontera-Highlights
- Dell PowerEdge* C6420 Server mit 8.008 Knoten, die mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation bestückt sind (insgesamt 448.448 Kerne)
- Spitzenleistung von 38,7 petaFLOPs1
- 50 Knoten mit persistentem Intel® Optane™ DC Speicher
- An 5. Position der weltweit leistungsfähigsten Supercomputer und schnellster Supercomputer aller Universitäten weltweit
Lösungskomponenten
- Dell EMC PowerEdge C6420, 8.008 Rechenknoten mit Intel® Xeon® Platinum Prozessoren der 2. Generation, 56 Kerne pro Knoten
- Persistenter Intel® Optane™ DC Speicher