Südafrikas CHPC bringt COVID-19-Forschung voran

Der private Cloud-Cluster von CHPC mit Intel® Technik bildet eine Konvergenz von HPC mit Analysen, KI und maschinellem Lernen.

Auf einen Blick:

  • Das südafrikanische Center for High Performance Computing (CHPC) bietet seit über 10 Jahren umfangreiche Rechen- und Datenspeicherkapazität für wissenschaftliche Zwecke. Als wichtiges Zentrum für groß angelegte Rechenleistung in Afrika unterstützt das südafrikanische CHPC sowohl akademische als auch industrielle Forschungsprojekte.

  • CHPC-Architekten entwickelten auf OpenStack eine private Cloud unter Einsatz von Supermicro TwinPro-Servern mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation. Drei Tage nach Inbetriebnahme dieser CHPC OpenStack Production Cloud trat landesweit der coronavirusbedingte Lockdown in Kraft und die OpenStack Production Cloud wurde von den Anforderungen der vielen verschiedenen staatlichen Behörden überrollt. CHPC wandte sich an Intel und Dell, um diesen Bedarfsanstieg an Ressourcen mit Servern zu füllen, die skalierbare Intel Xeon Prozessoren der 2. Generation verwenden.

author-image

Von

Kurzübersicht:

Das südafrikanische Center for High Performance Computing (CHPC) bietet seit über 10 Jahren umfangreiche Rechen- und Datenspeicherkapazität für wissenschaftliche Zwecke. Der Lengau Supercomputer von CHPC ist der schnellste des afrikanischen Kontinents.1 Seit das Center seine Angebote an Forscher und Branchen in ganz Afrika erweitern konnte, hat die Zahl der Nutzer von CHPS seit der Installation 2016 stetig zugenommen. 2017 trat CHPC dem Projekt Square Kilometer Array (SKA) bei, um Rechenkapazität für den Science Data Prozessor (SDP) von SKA zu liefern. Ein Teil des SKA wird in Südafrika gebaut.

Im Laufe der Zeit hat eine steigende Anzahl der Forschungs- und Industrienutzer von CHPC auch Rechenleistungs- und Datenspeicherdienste benötigt, die nicht die Hochleistungsansprüche von HPC erfüllen brauchten. Die Kombination aus der steigenden Nachfrage nach nicht-HPC-Ressourcen und den SDP-Rechenressourcen von SKA veranlasste die CHPC-Architekten, eine private Cloud zu entwickeln. Die Cloud wurde auf OpenStack und OpenStack CEPH-Speichersoftware mit Supermicro TwinPro-Servern mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und Intel® SSD-Laufwerken gebaut. Drei Tage nach der Inbetriebnahme der CHPC OpenStack Production Cloud trat das Land aufgrund von COVID-19 in den Lockdown. Die neue private Cloud wurde von den Anforderungen vieler Regierungsbehörden überrollt, die Untersuchungen und Unterstützung für ihre Aktivitäten liefern wollten. CHPC wandte sich an Intel und Dell, um das brandneue Cloud-System zu aktualisieren. Mit Servern mit skalierbaren Intel Xeon Prozessoren der 2. Generation und Intel SSD-Laufwerken konnte das CHPC die steigende Nachfrage nach Ressourcen und die Anforderungen der Pandemie füllen.

Herausforderung

Als wichtiges Zentrum für groß angelegte Rechenleistung in Afrika unterstützt das südafrikanische CHPC sowohl akademische als auch industrielle Forschungsprojekte. Die 1,3 petaFLOPS des Lengau Clusters von CHPC und dessen paralleler Lustre-Dateisystem-Cluster wurden für mehrere Modellprojekte mit Ressourcen der Supercomputer-Ebene verwendet. Dazu zählen u. a. regionale gekoppelte Ozean-Atmosphären-Modelle mit hoher Auflösung, Energiespeichermaterialien und das MeerKAT-Array. Es konnte auch Ressourcen zu kommerziellen Projekten beitragen, mit denen Maßnahmen im Rahmen der South Africa Development Co-Operative (SADC) sowie in anderen afrikanischen Ländern, darunter Ghana und Kenia, unterstützt werden.

Der Benutzerbedarf nach Rechen- und Datenressourcen von CHPC ist in den letzten paar Jahren stark angestiegen – allerdings in verschiedene Richtungen.

Nach Unterstützung von Supercomputing mithilfe des Lengau Clusters sowie der Unterstützung allgemeinerer Benutzer durch individuelle VMs stellte CHPC eine private OpenStack-Cloud auf Supermicro-Servern bereit, um die virtuelle Umgebung zu ersetzen. (Foto mit freundlicher Genehmigung von CHPC)

„Neben Supercomputing benötigten die Forscher auch allgemeinen Computersupport ohne HPC. Sie wollten ihre Daten fernspeichern und benötigten dazu statt Lengau und dem parallelen Lustre-Dateisystem eine eher herkömmliche Verarbeitungs- und Speicherumgebung“, so Dora Thobye, Technical Manager für HPC-Ressourcen.

CHPC schuf eine VMware-basierte Umgebung in einem Cluster, die sie als IT-Shop bezeichneten, um einzelne virtuelle Rechner (VMs) bereitzustellen. Der Datenspeicher wurde weiterhin vom parallelen Lustre-Dateisystem bereitgestellt. Mit Anstieg der nicht-HPC-Workloads wuchs die VM-Unterstützung in ihrer Komplexität. Der Datenspeicherbedarf überforderte das Lustre-Speichersystem, was die Speicherleistung für Supercomputing laut CHPC um 30 bis 40 Prozent herabsetzte.

Dann wurde MeerKAT 2017 dem Projekt Square Kilometer Array (SKA) hinzugefügt, und CHPC trat SKA bei, um Rechen- und Datenspeicherressourcen für dessen Science Data Prozessor (SDP) bereitzustellen. Die wachsende Nachfrage nach allgemeinen Rechen- und Speicherdiensten und die Notwendigkeit, SKA zusammen mit einer Cloud-Umgebung zu unterstützen, führte CHPC in eine neue Richtung. Das Center begann eine Konvergenz-Infrastruktur aus Cloud und HPC-Rechenzentrum zu untersuchen, die die automatische Orchestrierung von Rechen- und Datenspeicher mit Supercomputing unterstützen würde.

Immer mehr HPC-Zentren weltweit stellen Hybrid-Infrastrukturen zusammen. Rechenintensive, parallele Leistungs-Cluster bilden eine Konvergenz mit Datenanalysen, künstlicher Intelligenz/maschinellem Lernen (KI/ML) und privaten Cloud-Architekturen, um die unterschiedlichsten Benutzeranforderungen in nur einer alles umfassenden Infrastruktur zu füllen. Die UK Science Cloud der Cambridge University auf OpenStack ist ein Beispiel dieses Konzepts. CHPC griff in seiner Implementierung auf die OpenStack-Lösung der Cambridge University zurück.

„Ähnlich wie Daten aus dem Atlas-Detektor des Large Hadron Colliders wird die Computerverarbeitung der SDP-Daten in vielen Ländern und von sehr vielen Benutzern geteilt“, erklärte Dr. Happy Sithole, Direktor des CHPC. „OpenStack bietet eine transparente Umgebung für Benutzer auf der ganzen Welt, um die SDP-Daten zu analysieren. Und OpenStack bietet die Grundlage für unseren bestehenden Bedarf und die konvergente Infrastruktur der Zukunft.“

CHPC arbeitete mit StackHPC und Linomtha ICT zusammen, um die CHPC OpenStack Production Cloud zu entwickeln, die die bestehende VMware-Umgebung ersetzen sollte. Die neue private Cloud wurde auf Supermicro TwinPro-Servern mit skalierbaren Intel Xeon Prozessoren der 2. Generation und 3 TB Arbeitsspeicher pro Gehäuse eingerichtet. Aus 1,5 Petabyte auf mechanischen Festplatten und mehr als 220 TB auf Intel SSD-Laufwerken entstand ein CEPH-Speicher-Cluster mit einer hierarchischen Speicherarchitektur für den Kurzzeit- und Langzeitspeicher.

„Das neue Cloud-System wurde entwickelt, um viele virtuelle Jobs im Zusammenhang mit der laufenden Forschung zu unterstützen, wie z. B. individuelle Workflows, bequem parallel laufende Workloads und Web-Hosting“, so Thobye.

Die IT-Abteilung begann am 23. März 2020 mit der Migration der bestehenden Benutzer in die OpenStack Production Cloud. Drei Tage später war alles anders, und die neue Produktions-Cloud war schnell überbeansprucht.

Lösung

Am 26. März 2020 ging Südafrika aufgrund der Auswirkungen der COVID-19-Pandemie landesweit in den Lockdown. Als CHPC mit der Migration von Benutzern aus der vorherigen VM-Umgebung begann, verursachte die COVID-Pandemie einen zusätzlichen Bedarf an Cloud-Computing und -Datenspeicher. Die Behörden wandten sich an CHPC mit der Bitte um Unterstützung. Offizielle Programme des Gesundheitsministeriums benötigten enorme Rechen- und Speicherressourcen, um Personen-Tracking, -Tracing und andere Daten verarbeiten zu können. Ebenso stieg die Nachfrage nach Ressourcen, um die neu entstandenen Dienste für den digitalen Unterricht, künstliche Intelligenz und andere, im Zusammenhang mit dem Virus entwickelte Dienste zu unterstützen. Die DNA-Sequenzierung des Virus erfordert enorme Mengen an Datenspeicher.

„Aufgrund der Pandemie und den vielen neuen Benutzern, die sie uns beschert hat, waren unsere Rechen- und Speicherressourcen schnell vergriffen“, erklärte Thobye.

Mit Unterstützung von zwei großen Universitäten im Land sowie Dell EMC und der Pandemic Response Technology Initiative von Intel konnte CHPC die OpenStack Production Cloud erweitern. Die beiden beteiligten Universitäten waren die University of Cape Town (Kapstadt) und die University of the North West (Potchefstroom).

Die Erweiterung der OpenStack Production Cloud umfasste Folgendes:

  • 15 neue Rechenknoten unter Einsatz von Dell PowerEdge R640 Servern mit doppelten Intel® Xeon® Gold 6230R Prozessoren für insgesamt 780 Kerne mit einer Leistung von 33,285 TFlops
  • 3 neue Speicherknoten unter Einsatz von Dell PowerEdge R740XD2 Servern mit doppelten Intel® Xeon® Gold 6226 Prozessoren
  • 80 TB Hot-Data-Speicher mit Intel SSD-Laufwerken für Rechenzentren
  • 480 TB Festplattenspeicher (3 × 160 TB Kopien)

Die Erweiterung wurde Mitte 2020 abgeschlossen und ging mit einer Gesamtkapazität von 780 Rechenkernen, 480 TB Kaltspeicher und 60 TB Hot-Speicher (Intel SSDs) in die Produktion. Durch die erhöhte Speicher- und Rechenkapazität erlebten Benutzer ein sehr viel leistungskräftigeres System.

„Statt bei andauernd 100-prozentiger Auslastung übermäßig gefordert zu sein“, so Dr. Sithole, „brauchen Workloads nun zwischen 60 bis 100 Prozent der Rechenkapazität, je nach Aktivität.“

Ergebnis

„OpenStack bietet ein anderes Angebot für Benutzer des Rechenzentrums“, so Sithole. „Diese Implementierung ist ein Schritt in die richtige Richtung, um unser Rechenzentrum als konvergente Umgebung neu zu gestalten. Wir sehen dies als eine Fortsetzung von rechenintensiver bis zur datenintensiven Computerverarbeitung. Es ermöglicht es uns auf einfache Weise, sowohl HPC-Forschung als auch Cloud-Computing zu allgemeinen Zwecken in derselben Infrastruktur unterzubringen.“

Mit dem ursprünglichen Supermicro-Cluster und dem Ausbau auf Dell EMC kann die erweiterte Cloud jetzt laufende pandemiebedingte Aktivitäten des Schulungs- und Bildungsministeriums, des Gesundheitsministeriums, der akademischen Forschung und andere öffentliche und private Projekte unterstützen, um den aus der Pandemie entstehenden Bedarf zu füllen. Rechen- und datenintensive Projekte umfassen Sequenzierung und Virenforschung, digitaler Unterricht und Online-Lernen, Bandbreitenanalyse von entfernt gelegenen Communitys, die die Kapazitäten des Fernstudiums, Analyse des TV-Whitespace, analytische Epidemiologie (einschließlich Tracking und Tracking) und andere benötigen. Die südafrikanische Variante von COVID-19 wurde mithilfe der CHPC-Ressourcen erkannt.

Diese Implementierung ist ein Schritt in die richtige Richtung, um unser Rechenzentrum als konvergente Umgebung neu zu gestalten. Wir sehen dies als eine Fortsetzung von rechenintensiver bis zur datenintensiven Computerverarbeitung. Es ermöglicht es uns auf einfache Weise, sowohl HPC-Forschung als auch Cloud-Computing zu allgemeinen Zwecken in derselben Infrastruktur unterzubringen.“ – Dr. Happy Sithole, CHPC Director

Laut Dr. Sithole bietet die größere Cloud auch viele neue Tools, die es den Benutzern ermöglichen, die neue Umgebung zu nutzen. Intel KI-Technik, die Bibliotheken des maschinellen Lernens (ML), Containerisierung und andere Ressourcen helfen Benutzern, die künstliche Intelligenz (KI) implementieren und bei ihrer wissenschaftlichen Problemlösung neue Ansätze verfolgen möchten.

„Zudem ermöglicht die Cloud-Plattform es CHPC, die notwendigen technischen und betrieblichen, praktischen Fachkenntnisse zu sammeln, um eine nationale föderierte OpenStack-Plattform zu entwickeln, bereitzustellen und zu betreiben“, sagt Thobye. „Es macht die globale Konnektivität in einer virtuellen Umgebung für Mega-Projekte wie das Square Kilometer Array und ähnliches von der Größe möglich.“

Bevor die Pandemie auch Südafrika erreichte, war CHPC im Begriff, weitere Intel HPC-Technik wie z. B. den persistenten Intel Optane Speicher und Intel Optane Speicher zu implementieren. CHPC erwartet, dass diese Technik die Leistung und Effizienz der Datenverarbeitung mit großer Speicherkapazität verbessern kann, indem sie mehr Daten näher an der Verarbeitungsplattform belässt. Diese Nähe ist bei Workloads entscheidend, die mit enorm großen Datenmengen wie denen von SKA interagieren. Diese Technik kann auch die Genom-Sequenzierung und -Assemblierung beschleunigen.

Sobald die Bevölkerung geimpft und das Virus unter Kontrolle ist, kann die OpenStack Production Cloud von CHPC eine Vielzahl anderer Aktivitäten unterstützen. Mehr Mitglieder von SADC können vom einfachen Zugriff auf Rechen- und Speicherressourcen profitieren. Es werden neue Wettermodelle untersucht, damit Afrika einen Einblick in seine einzigartigen Wetterereignisse und die Auswirkungen des Klimawandels gewinnen und eine Strategie entwickeln kann.

Nur drei Tage nach Inbetriebnahme wurde das neue System von CHPC aufgrund der Pandemie überfordert. Dell EMC und Intel unterstützten CHPC bei der Erweiterung der OpenStack Production Cloud, um auf die neuen Anforderungen eingehen zu können. (Foto mit freundlicher Genehmigung von CHPC)

„Sobald wir COVID hinter uns haben“, sagte Dr. Sithole abschließend, „stehen wir in Afrika vor anderen Herausforderungen. Die OpenStack-Plattform gibt uns KI und andere Tools, die uns helfen, Lösungen für die einzigartigen Probleme des afrikanischen Kontinents zu finden. Eine dieser Herausforderungen sind Infektionskrankheiten. Beispielsweise Ebola, auch wenn Ebola nicht die schlimmste Krankheit ist, mit denen Afrika zu kämpfen hat. Was wir von COVID gelernt haben, ist, dass sich ein derartiges Problem nicht im Alleingang lösen lässt. Es bedarf gemeinsamer Anstrengungen aller Beteiligten, um eine Lösung für die Probleme zu finden, denen wir gegenüberstehen. Hoffentlich wird dies die Akzeptanz der CHPC-Plattform beschleunigen, damit wir auch Lösungen für diese einzigartigen afrikanischen Probleme finden können.“

Zusammenfassung

Angesichts der wachsenden Benutzerbasis und größeren, über die herkömmlichen Supercomputing-Ressourcen hinaus wachsenden Rolle für den Kontinent musste CHPC seine Rechenumgebung weiterentwickeln. Nach Unterstützung von Supercomputing mithilfe des Lengau Clusters sowie der Unterstützung allgemeinerer Benutzer durch individuelle VMs stellte CHPC eine private OpenStack-Cloud auf Supermicro-Servern bereit, um die virtuelle Umgebung zu ersetzen. Drei Tage nach der Inbetriebnahme wurde das neue System aufgrund der Pandemie überfordert. Dell EMC und Intel unterstützten CHPC bei der Erweiterung der OpenStack Production Cloud, um auf die neuen Anforderungen eingehen zu können. Die neue erweiterte Cloud-Umgebung ermöglicht es dem Land, durch einfachen Zugriff auf rechen- und datenintensive Verarbeitungs- und Speicherressourcen die Bewältigung der Krankheit und ihrer Auswirkungen in Angriff zu nehmen. Die OpenStack Production Cloud ist CHPCs nächster Schritt hin zu einem konvergenten HPC/Cloud-Rechenzentrum.

Lösungskomponenten

  • Supermicro TwinPro Server (Phase 1)
  • Dell R640 PowerEdge Server (Phase 2)
  • Skalierbare Intel Xeon Prozessoren der 2. Generation
  • Intel SSDs

PDF herunterladen ›