Der Cumulus Supercomputer der Universität Cambridge

Der einzigartige Datenbeschleuniger von Cumulus verhilft dem neuesten Supercomputer der Universität zu extrem schneller I/O.

Auf einen Blick:

  • Die Aufgabe der Universität Cambridge besteht darin, „durch das Streben nach Bildung, Wissen und Forschung auf höchster internationaler Ebene einen Beitrag zur Gesellschaft zu leisten.”

  • Laut dem Virtual Institute for I/O* verfügt der Cumulus Supercomputer jetzt dank skalierbaren Intel® Xeon® Prozessoren und Produkten von Cornelis Networks über die schnellste I/O der Welt und bietet Forschern die Tools, die sie zur Bewältigung der schwierigsten datengesteuerten Problemstellungen weltweit benötigen.

author-image

Von

Kurzübersicht:

Die Universität Cambridge, einer der bekanntesten Namen der Welt, hat es sich zur Aufgabe gemacht, „durch das Streben nach Bildung, Wissen und Forschung auf höchster internationaler Ebene einen Beitrag zur Gesellschaft zu leisten.” Die Abteilung Research Computing Services der Universität stellt Ressourcen im Bereich High-Performance-Computing (HPC) bereit, um die Forschungsarbeiten an den zahlreichen Colleges of Science und in den verschiedenen Industriezweigen im Vereinigten Königreich zu unterstützen. Um die Vorteile in der heutigen datengesteuerten Welt zu nutzen, hat die Abteilung Research Computing Services ihren neuesten Supercomputer eingeführt, ein 2,27-petaFLOPS-System namens Cumulus.1 Cumulus wurde entwickelt, um die I/O-Herausforderungen großer Datenmengen in den Bereichen Simulation und künstliche Intelligenz (KI) zu bewältigen und verwendet hierfür einen einzigartigen Datenbeschleuniger (Data Accelerator, DAC), der in die Netzwerktopologie auf Basis von Produkten von Cornelis Networks integriert ist2. Der DAC von Cumulus brachte Cambridge die höchste Leistungsbewertung auf der neuesten I/O-500-Liste des Virtual Institute for I/O ein.3

Herausforderung

Die Abteilung Research Computing Services der Universität Cambridge unterstützt alle seine Colleges und fördert die Forschung in Industriezweigen des Vereinigten Königreichs. Die Benutzer der Abteilung befassen sich mit der KI, da sie inzwischen Bestandteil des Mainstreams von Wissenschaft und Industrie. Forscher der Universität Cambridge wenden KI in einer Vielzahl von Natur-, Werkstoff- und Sozialwissenschaften an, in denen große Datenmengen zu neuen Erkenntnissen führen können. Doch während die Rechenressourcen von Supercomputern mit der Geschwindigkeit des Moore'schen Gesetzes voranschreiten, haben große Datenmengen I/O-Herausforderungen für HPC-Systeme mit sich gebracht, die in der Simulation und KI eingesetzt werden. Selbst die schnellsten Netzwerke werden zu Engpässen, da riesige Datenmengen in den Datenspeicher- und Rechen-Clustern bewegt werden, was sich auf die bis zur Lösung benötigte Zeit der Benutzer der Abteilung Research Computing Services auswirkt.

Die Planung der Anschaffung von Supercomputern der nächsten Generation zwecks riesiger Datensimulations- und KI-Workloads sowie die Steigerung der I/O-Leistung und der Datenverarbeitungskapazität im Bereich petaFLOPS war ein wesentlichen Teilaspekt für das neue Systemdesign der Research Computing Services. In Zusammenarbeit mit Dell EMC, Intel und StackHPC haben die Entwickler eine innovative Lösung auf dem Gebiet der Datenbeschleunigung geschaffen, die in einen neuen Supercomputer mit 50.176 Kernen und 2,27 petaFLOPS mit dem Namen Cumulus eingebaut wurde.1

Lösung

Cumulus basiert auf Dell EMC PowerEdge* Servern mit Intel® Xeon® Gold 6142F Prozessoren, die einen integrierten Adapter basierend auf der Cornelis Networks-Host-Fabric in jedem Prozessor und einige Knoten mit Intel® Xeon Phi™ Prozessorkarten enthalten. Cornelis Networks-Switches und -Leitungen bilden die Struktur für den Rechen-Cluster und den DAC, die mit einem Lustre*-Paralleldateisystem-Datenspeicher-Cluster verbunden sind. Abgesehen davon, dass sie eine wesentliche HPC-Ressource für große Daten-Workloads darstellen, um die Anforderungen der Benutzer effizient zu unterstützen, hosten mehrere Cumulus Knoten eine OpenStack*-Cloud, um die Partitionierung der Systemressourcen zu automatisieren. Mit mehr als 2 petaFLOPS Leistung und einem Platz unter den Top 100 Supercomputern der Welt1 ist die Cumulus-UK Science Cloud der landesweit schnellste akademische Supercomputer.

Der einzigartige Cumulus-24-Knoten-Datenbeschleuniger (DAC) ist ein aus Datenspeicher-Knoten bestehendes Cluster, das speziell für die Verbesserung des Zugriffs auf große Datenmengen innerhalb des Lustre-Dateisystems entwickelt wurde. Der DAC nutzt die Leistung der Dell EMC PowerEdge Server, die NVM-Express*-Schnittstelle, skalierbare Intel Xeon Prozessoren, Intel® SSDs der Produktreihe DC P4600 und die gemeinsam mit der Universität Cambridge entwickelte Software. Er ermöglicht eine Lesegeschwindigkeit von mehr als 500 GB/s und eine Gesamtleistung von fast 353 kIOP/s. Mit einer Bewertung von 620,69 auf der IO-500-Liste ist Cumulus der schnellste I/O-Supercomputer der Welt.4

Der DAC nutzt das Burst-Puffer-Plugin des SLURM (Simple Linux* Utility for Resource Management) Workload Managers, die Leistung der Lustre- und BeeGFS*-Dateisysteme und die Distributed Name Space (DNE)-Funktion von Lustre, um die hohe Leistung bereitzustellen, die die Workloads von Forschern erfordern. Ein Orchestrator, der von Research Computing Services und StackHPC entworfen und entwickelt wurde, wurde hinzugefügt, um die Erstellung und Verwaltung des DAC zu vereinfachen und das kontinuierliche Experimentieren und die weitere Entwicklung des DAC für anderweitige Workflows zu ermöglichen.

Ergebnis

Umfangreiche Datenprojekte erfordern schnelle I/Os in und aus dem Datenspeicher. Nach dem IO-500-Benchmark des Virtual Institute for I/O verfügt Cumulus jetzt über die schnellste I/O weltweit. Ähnlich wie die Top500.org-Liste der 500 schnellsten Supercomputer der Welt stuft die IO-500 HPC-Systeme in Bezug auf die Datenspeicherleistung ein. Cumulus erreichte mit seinem Datenbeschleuniger mit einer Bewertung von 620,69 Platz 1 und das mit einer nahezu doppelt so hohen Bewertung wie das System auf Platz 2. Damit verfügt die Cumulus-UK Science Cloud über die Tools, um den Bedürfnissen von Forschern gerecht zu werden, die an den anspruchsvollsten datengesteuerten Problemen der Welt arbeiten.

„Wir haben auf einem einzelnen System hohe Rechen- und I/O-Kapazitäten mithilfe von Hadoop und Frameworks aus dem Bereich des maschinellen Lernens in einer OpenStack*-Umgebung zusammengeführt, um unseren Benutzern Anpassbarkeit und Sicherheit zu gewährleisten”, erläuterte Dr. Paul Calleja, Director of Research Computing Services. „Durch die Kombination dieser Eigenschaften kann dieses System genutzt werden, um neuen und aufstrebenden Communitys datenzentrierte Forschung bereitzustellen.”

Laut Dr. Calleja werden bereits viele KI-Projekte unter Beteiligung von Forschern aus Cambridge durchgeführt, die sich mit der Bilderkennung im medizinischen Bereich, der Genomforschung und der Astronomie beschäftigen.

Das Square Kilometre Array (SKA)-Projekt beispielsweise sammelt Daten eines fortschrittlichen globalen Radioteleskops, das 100-mal empfindlicher ist als Radioteleskope vorheriger Generationen. So können Forscher den Himmel bis zu 1 Million Mal schneller vermessen.5

Die im Rahmen des Projekts gesammelten Daten werden über 100 PetatFLOPS Rechenleistung beanspruchen, die derzeit nur von den allergrößten Supercomputern der Welt bereitgestellt werden kann. Cumulus und der DAC werden gegenwärtig für die Modellierung und Prototypisierung von HPC-Systemen der nächsten Generation eingesetzt, die für die Datenverarbeitung des SKA-Projekts benötigt werden.

Research Computing Services unterstützt im Rahmen des Projekts UK10K auch bahnbrechende Arbeiten im Bereich der Genomforschung. Dieses 2010 begonnene Projekt nutzt Hadoop* und riesige Mengen an sequenzierten genomischen Daten von 10.000 Menschen, um Forschern dabei zu helfen, die Beziehungen zwischen sehr seltenen und ungewöhnlichen genetischen Veränderungen und menschlichen Erkrankungen, die durch schädliche Veränderungen der Proteine im menschlichen Körper verursacht werden, zu verstehen.

„Diese Art von Herausforderungen lassen sich am besten mit der Rechenleistung der weltweit branchenführenden Top500- und IO-500-Supercomputer – wie der Cumulus-UK Science Cloud – bewältigen”, fügte Calleja hinzu.

Zusammenfassung

Zur Unterstützung der zahlreichen und riesigen Datensimulations- und KI-Workloads von Forschern der Universität Cambridge entwickelte die Abteilung Research Computing Services der Universität Cumulus, einen 2,27-petaFLOPS-Supercomputer. Cumulus führt herkömmliche Workloads aus und bietet eine OpenStack-Cloud zur einfachen Konfiguration für die Projekte der Benutzer. Der einzigartige DAC, ein spezieller Datenbeschleuniger der Cumulus-UK Science Cloud, trägt dazu bei, dass Cumulus der schnellste I/O-Supercomputer (I/O-500) der Welt ist. Dank des Cumulus und des DAC werden Erkenntnisse und Forschungsarbeiten in zahlreichen wissenschaftlichen Forschungsprojekten, darunter das Square Kilometre Array und das UK10K, beschleunigt.

Lösungskomponenten

  • Dell EMC PowerEdge* Rechenknoten-Server (50.176 Kerne)
  • Intel Xeon Gold 6142F mit integriertem Cornelis Networks-Host-Adapater
  • Intel Xeon Phi 7210 (208 Knoten)
  • 24 Dell EMC PowerEdge R740xd Data Accelerator (DAC)-Knoten
  • Cornelis Networks-Switches

PDF herunterladen ›

Produkt- und Leistungsinformationen

2

Intel hat das Omni-Path-Geschäft an Cornelis Networks ausgelagert, ein unabhängiges Unternehmen im Intel Capital Portfolio. Cornelis Networks wird Bestands- und Neukunden weiterhin mit führenden, zweckbestimmten Hochleistungs-Netzwerkprodukten für High Performance Computing und künstliche Intelligenz beliefern. Intel ist der Ansicht, dass Cornelis Networks das Technologieumfeld von hochleistungsstarken Fabric-Lösungen erweitern und Optionen für Kunden bieten wird, die mithilfe von Intel® Xeon™ Prozessoren Cluster für HPC und KI erstellen wird. Weitere Einzelheiten zur Veräußerung und Umstellung von Omni-Path-Produkten finden Sie unter www.cornelisnetworks.com.

5Universität Cambridge, Department of Physics, Cavendish-Laboratorium, Square Kilometre Array (SKA)-Forschung.