Kurzübersicht:
Shanghai Jiao Tong University ist eine der renommiertesten Universitäten in China. Das High Performance Computing (HPC) Center der Universität installierte den letzten Supercomputer 2013. Für die Computerforschung unter den 60.000 Studenten und einem Lehrkörper von 6.000 bot dies zu wenig, um laufende Arbeiten effektiv zu unterstützen. Die Universität wandte sich an Inspur* für ihren Cluster der nächsten Generation, der auf skalierbaren Intel® Xeon® Prozessoren der 2. Generation und Netzwerkprodukten von Cornelis basiert.
Herausforderung
Die 1896 gegründete Shanghai Jiao Tong University ist eine der ältesten Universitäten in China. Ihre 28 Fakultäten und 15 Kliniken bilden 30.000 Studenten im Bachelor-Studium und 30.000 Magister-Studenten und Doktoranden in zahlreichen Fachbereichen aus. Viele dieser Fachbereiche erfordern Supercomputer-Ressourcen für Forschung und Entdeckungen in Werkstoffkunde, Astrophysik, Aeronautik, Genomikanalyse und anderen traditionellen Wissenschaften. In den letzten Jahren hat sich die Forschung in neue Bereiche ausgedehnt, darunter Big Data und maschinelles Lernen.
Die bestehende HPC-Ressource der Universität, als π bezeichnet, wurde im Jahr 2013 gebaut. Das ist ein heterogener 260-TeraFLOPS-Cluster aus Intel® Xeon® Prozessoren E5 und NVIDIA* GPUs, die mit InfiniBand* Architecture miteinander verbunden sind.
„Die Dinge haben in den letzten sechs Jahren stark verändert“, so Dr. James Lin, Vice Director des HPC Center. „Da die Forschung an der Universität immer komplexere und tiefere Probleme angesprochen hat und neue Bereiche wie maschinelles Lernen und Big Data umfasst, brauchen die Studenten mehr Rechenzyklen. Für Forscher ist die Wartezeit bei Aufgaben auf π immer länger geworden, was wichtige Projekte verzögert.“
Die meisten Supercomputer auf der Top500-Liste basieren auf Intel® Architektur (IA). Und wir haben eine Menge Erfahrung mit der Intel® Architektur, darunter die Modernisierung von Codes von GPUs auf IA. Daher haben wir die skalierbaren Intel® Xeon® Prozessoren der nächsten Generation für unseren neuen Cluster gewählt.“ — Dr. James Lin, Vice Director des HPC Center
Neben der Behebung der mangelnden Kapazität von π für aktuelle Aufgaben möchten Forscher auch mehr skalierbare Codes nutzen, die ihre Aufgaben schneller auf mehr Prozessorkernen ausführen können. Im Jahr 2018 hat die Universität den OEM Inspur kontaktiert, um ein neues, homogenes System mit etwa 2 petaFLOPS namens π 2.0 bauen zu lassen.
Lösung
„Wir unterstützen Forschungsprojekte, die kommerzielle Anwendungen, Open-Source-Anwendungen für traditionelle CFD-Modellierung sowie hausinterne hochskalierbare Codes verwenden“, erklärte Stephen Wang, Leiter des Technical Support. „Wir bieten Forschern Hilfe bei der Optimierung und Portierung der Codes, um sie auf parallelen Systemen skalierbar zu machen.“
π 2 wird ein 658-Knotensystem sein, mit Zweiprozessor-Inspur-Servern mit Intel® Xeon® Gold 6248 Prozessoren der 2. Generation mit 20 Kernen, was insgesamt 26.320 Rechenknoten mit einer Spitzenleistung von 2 PetaFLOPS bietet. Das wird der drittgrößte Supercomputer an chinesischen Universitäten sein. Die Rechenknoten werden durch Intel® OPA Fabric verbunden und von einem skalierbaren, parallelen Lustre* Dateisystem unterstützt, das Intel® SSD-Laufwerke der Rechenzentrumsproduktreihe für NVMe* verwendet.
„Die meisten Supercomputer auf der Top500-Liste basieren auf der Intel® Architektur (IA)“, sagte James. „Und wir haben eine Menge Erfahrung mit der Intel® Architektur, darunter die Modernisierung von Codes von GPUs auf IA. Daher haben wir die skalierbaren Intel® Xeon® Prozessoren der nächsten Generation für unseren neuen Cluster gewählt.“
Die Auswahl von Cornelis Networks für die Zusammenschaltung war ein wenig komplizierter.
„Wir haben die beiden führenden HPC-Zentren in Japan besucht: das Joint Center for Advanced High Performance Computing (JCAHPC) an der University of Tokyo und der University of Tsukuba und das Global Scientific Information and Computing Center (GSIC) am Tokyo Institute of Technology“, erklärte James. „JCAHPC beherbergt Oakforest-PACS, ein sehr großer Supercomputer mit Cornelis Netzwerkprodukten und der größten Implementierung von Cornelis Netzwerken. Tsubame3 GSIC ist ebenfalls ein sehr großer Cluster, der Cornelis Networks verwendet. Wir haben uns für Cornelis Networks entschieden, weil wir uns über diese Zentren informiert und andere Kunden von Cornelis Networks in China besucht haben."
Der Strombedarf war ein entscheidender Faktor für das HPC Center. Mit 26.320 Kernen wird π 2.0 sieben- bis achtmal größer als π sein.
„Wir müssen einen PUE-Wert (Power Usage Effectiveness, Energieeffizienz) von 1,3 erreichen", meinte Stephen. „Dank der effizienten Technologie der neuesten skalierbaren Intel® Xeon® Prozessoren wird der Stromverbrauch von π 2.0 nur das Zwei- bis Dreifache von π betragen, obwohl das System fast achtmal so groß ist.“
Das Lustre-Dateisystem stellte ein zentrales Problemfeld dar. Bei π wurde es aufgrund der steigenden Anzahl der Genomanalysen (bis zu 1000 gleichzeitig) zu einem Engpass, da hierbei zahlreiche kleine Aufträge ausgeführt werden. Das Lustre-Dateisystem von π 2.0 wird Intel® SSD-Laufwerke frt Rechenzentrumsproduktreihe verwenden, um die I/O Kapazität im Speichercluster zu beschleunigen.
Ergebnisse
Obwohl sich das System immer noch in der Entwicklungsphase befindet, wissen Forscher genau, welche neue Kapazitäten und Technologien auf π 2.0 verfügbar sind. Stephens technische Support-Abteilung beantwortet Fragen von Benutzern, die ihre Codes skalieren wollen.
„Wir konzentrieren uns auf die Entwicklung skalierbarer Codes“, so Stephen, „und wir bieten Hilfe bei Methoden wie OpenMP* und MPI. Wir haben Praktikanten, die Forschern tatsächlich helfen, ihre Codes zu portieren. Da wir Erfahrungen mit der Modernisierung von GPU-Codes haben, können wir ihnen helfen, ihre Anwendungen für maschinelles Lernen auf die skalierbaren Intel® Xeon® Prozessoren der 2. Generation auszurichten, mit Funktionen wie Vector Neural Network Instructions (VNNI)“
Zu den ersten Kunden des neuen Supercomputers werden die größten Benutzer an der Universität gehören, die ihre hausinternen hochskalierbaren Codes verwenden, die für skalierbare Intel® Xeon® Prozessoren der 2. Generation optimiert sind. Zu anderen frühen Projekten werden auch Aufgaben im Bereich maschinelles Lernen gehören.
„Benutzer freuen sich schon sehr darauf, Zugriff auf das System zu erhalten“, meinte James.
Der neue π 2.0 Supercomputer an der Shanghai Jiao Tong University wird Forschung für kommerzielle Anwendungen, Open-Source-Anwendungen für traditionelle CFD-Modellierung und andere Wissenschaften sowie hausinterne hochskalierbare Codes unterstützen.
Zusammenfassung
- Ein von Inspur gebautes System mit 658 Knoten aus Intel® Xeon® Gold 6248 Prozessoren der 2. Generation
- Insgesamt 26.320 Rechenknoten (52.640 Threads)
- Intel® SSD DC Serie für NVMe* für ein reaktionsschnelles paralleles Lustre-Dateisystem.
- Cornelis Networks für schnelle Kommunikation über Rechenknoten
- Frameworks für maschinelles Lernen, darunter TensorFlow* und Pytorch* die Intel® Optimierungen für TensorFlow und Intel® Distribution von Python* verwenden.