Aktuelle Inhalte von unserem Partner, Lenovo.
Hintergrund
Harvard University steht für Exzellenz im Bereich Lehre und Forschung und bringt Führungskräfte in vielen Disziplinen hervor, die weltweit einen Unterschied machen. Die Universität mit Sitz in Cambridge und Boston, Massachusetts hat über 20.000 Studenten, darunter solche vor dem Bachelor-Abschluss, Master-Studenten und Doktoranden.
Das Faculty of Arts & Sciences Research Computing (FASRC) Center von Harvard wurde 2007 gegründet, wobei das Hauptziel darin bestand, komplexe Forschungsprojekte durch die Bereitstellung hochmoderner Datenverarbeitungsdienste zu erleichtern.
Herausforderung
FASRC bietet Forschern die High-Performance-Computing (HPC) Ressourcen, die sie für die Verarbeitung massiver Datensätze, die Durchführung komplexer Berechnungen und Beantwortung wichtiger Fragen in Wissenschaft, Technik, Mathematik, Medizin und Dutzenden anderer Fachbereiche benötigen.
Um Forschern die besten Tools zu bieten, die ihre Arbeit unterstützen und mit der wachsenden Nachfrage nach ihren Diensten Schritt zu halten, aktualisiert FASRC die HPC-Infrastruktur alle paar Jahre.
FASRC verarbeitet jährlich mehr als 290 Millionen Aufträge, wobei jeweils 15.000 Rechenaufträge gleichzeitig auf dem Cluster ausgeführt werden. Forscher benötigen schnell Ergebnisse, damit sie neue Erkenntnisse gewinnen können, ihre Experimente iterieren und ihre Arbeit fortsetzen können.
Wir wollten die Anzahl unserer Prozessoren erhöhen, um die wachsende Nachfrage zu erfüllen. Außerdem haben wir beschlossen, die Leistung jedes einzelnen Prozessors zu erhöhen, da 25 % der CPU-Stunden von Tausenden von Einzelkernberechnungen verbraucht werden, die lose miteinander gekoppelt sind." —Scott Yockel, Beauftragter für universitäre Forschungsinformatik, Harvard Universität
Wahl eines neuen flüssigkeitsgekühlten Cluster-Designs
Da FASRC die neuesten Fortschritte der CPU-Technik mit höheren Leistungen nutzen und gleichzeitig mehr Leistung pro Kern ermöglichen wollte, wurde ein wassergekühlter Supercomputer-Cluster von Lenovo bereitgestellt.
Yockel kommentierte: „Unser vorheriger Cluster war luftgekühlt, daher war der Wechsel zur Lenovo Neptune Flüssigkühlungs-Technologie ein großer Schritt. Die Flüssigkeitskühlung unterstützt höhere Leistungsniveaus viel effizienter und ist entscheidend, um sowohl unsere aktuellen als auch die zukünftigen Rechenanforderungen zu erfüllen.“
Entwicklung eines hochmodernen HPC-Systems
Das neue, als Cannon bezeichnete System ehrt die bahnbrechende Astronomin Annie Jump Cannon und besteht aus 72 Lenovo NeXtScale n1200 Gehäusen über 12 Racks mit 670 Lenovo ThinkSystem SD650 Servern mit direkter Wasserkühlung an den Rechenknoten. Jeder Server ist mit einem Intel® Xeon® Platinum Prozessor und 192 GB RAM ausgestattet, was Cannon insgesamt 32.160 Rechenkerne gibt. Die Server werden dann mit dem InfiniBand HDR 100 Gbit/s Fabric zu einem Cluster zusammengefasst. Die Installation wurde von Lenovo Professional Services unterstützt und termingerecht abgeschlossen.
Die Direktkühlungstechnologie für Rechenknoten leitet mit einer wassergefüllten Kupferschlaufe Wärme von CPUs, Arbeitsspeichern, I/O, örtlichen Datenspeichern und Spannungsreglern ab. So kann FASRC die CPUs mit einer Taktfrequenz von 3,5 GHz ausführen, im Vergleich zu der Grundtaktfrequenz von 2,90 GHz ohne zusätzliche Luftkühlung. Mit 2,076 PetaFLOPs an Linpack-Leistung erreicht Cannon derzeit Rang 186 in der TOP500-Liste der weltweit schnellsten Supercomputer.1
FASRC nimmt rund 930 Quadratmeter in drei Rechenzentren ein. Der Primär-Cluster von Cannon befindet sich im Massachusetts Green High Performance Computing Center (MGHPCC) in Holyoke. Datenspeicher- und Anmeldeknoten, virtuelle Maschinen und Ressourcen für spezielle Rechenleistungen werden zwischen dem Boston- und dem Cambridge-Campus von Harvard geteilt, und alles ist über das Northern Crossroads (NOX) Netzwerk verbunden.
Der Cannon-Cluster verwendete CentOS Linux mit Puppet für die Verwaltung der Cluster-Konfiguration und SLURM Workload Manager als Job Scheduler.
FASRC fügt dem Cluster weiterhin Lenovo ThinkSystem-Server hinzu, um auf die wachsende Nachfrage von Forschern zu reagieren. Die Fakultät und Forschergruppen können eigene Mittel verwenden, um zusätzliche Knoten zu kaufen, auf die sie dann vorrangig zugreifen können. „Das Lenovo-System ist leicht expandierbar“, bestätigt Yockel.
Ergebnisse
Durch den Cannon-Cluster haben Forscher aus allen Fakultäten von Harvard über FASRC Zugriff auf erstklassige HPC-Ressourcen.
Yockel erläutert: „Unser neuer Cannon-Cluster bietet viermal mehr Leistung als unsere vorherige Infrastruktur innerhalb derselben Fläche, erfordert aber nur 50 % mehr Strom.2 Dies ist zum großen Teil auf die direkte Wasserkühlung an den Rechenknoten zurückzuführen, da wir hierdurch die skalierbaren Intel® Xeon® Prozessoren 85 % der Zeit mit 3,5 GHz laufen lassen können, ohne dass sie überhitzt werden. Das hat unsere Verarbeitungsleistung erheblich erhöht, sodass wir mehr Aufgaben schneller ausführen können.“
Heute unterstützt der Cannon-Cluster Tausende von Forschungsprojekten. Zu den wichtigsten Benutzern gehören das Center for Brain Science und das Center for Astrophysics.
Yockel meint: „Ein Beispiel für die Arbeit, die derzeit mit dem Cannon-Cluster durchgeführt wird, ist die Untersuchung der Beziehung zwischen Bewegung und Sehen im Gehirn. Forscher verwenden implantierte Elektroden, um Gehirnaktivitäten im primären visuellen Kortex zu messen, während Ratten sich in einem Käfig bewegen. Die Forscher nutzten diese Daten dann, um 3D-Modelle des Gehirns zu erstellen und Algorithmen für maschinelles Lernen auszuführen, um zu untersuchen, wie Neuronen Signale übertragen.“
Ebenso verwendet das Center for Astrophysics den Cannon-Cluster, um Hunderte von Terabyte an Teleskop-Bildern zu verarbeiten, um schwarze Löcher zu untersuchen und neue Erkenntnisse zu finden. In den letzten Monaten hat FASRC eine Reihe neuer Forschungsprojekte angenommen, die sich auf COVID-19 konzentrieren – von Epidemiologen, die Übertragungsraten analysieren, bis zu Wirtschaftswissenschaftlern, die die finanzielle Auswirkungen der Pandemie untersuchen.
- 4-mal höhere Leistung als der vorherige Cluster mit nur 50 % Steigerung des Energieverbrauchs2
- 32.160 Rechenkerne
Bei der Wissenschaft geht es um Iteration und Wiederholbarkeit. Aber Iteration ist ein Luxus, der im Bereich der Hochschulforschung nicht immer möglich ist, weil man oft unter Termindruck arbeitet. Dank der erhöhten Rechenleistung und der schnelleren Verarbeitung durch den Cannon-Cluster haben unsere Forscher jetzt die Möglichkeit, neue Dinge zu testen und nach einem Fehlschlag von vorn anzufangen. Gerade dadurch, dass Fehler möglich werden, sind unsere Forscher wettbewerbsfähiger. Das FASRC hat sich der Förderung der Forschung verschrieben und wir sind zuversichtlich, dass das Lenovo-System uns bei der steigenden Nachfrage nach HPC-Ressourcen auch in den kommenden Jahren unterstützen wird. —Scott Yockel, Beauftragter für universitäre Forschungsinformatik, Harvard Universität