Universität Shandong: Unterstützung unterschiedlicher Workloads

Ein Environment-as-a-Service-Modell unterstützt traditionelles und nicht-traditionelles HPC, AI/ML, Analytik, Bioinformatik und mehr.

Auf einen Blick:

  • Die chinesische Shandong-Universität unterhält das Shandong Center for HPC, eine der größten Grid-Computing-Implementierungen der Welt.

  • Die neue HPC-Ressource, die mit skalierbaren Intel® Xeon® Prozessoren und Cornelis Networks-Produkten1 ausgestattet ist, unterstützt traditionelle HPC-Aufgaben, Forschung in den Bereichen KI/ML, Analytik und Bioinformatik sowie nicht-traditionelle Arbeitslasten und Personal Desktops.

author-image

Von

Kurzübersicht:

Die Shandong Universität, die 1901 gegründet wurde, ist eine der ältesten und renommiertesten Universitäten in China. Sie ist die zweite nationale Universität des Landes und eine der ersten in China, die Ressourcen für das Hochleistungsrechnen (HPC) installiert hat. Die Hochschule beherbergt das Shandong Center for High Performance Computing, eine 2002 eingerichtete HPC- und Ressourcen-Sharing-Plattform. Sie bietet ein Umfeld für moderne Forschung von Weltrang in den Bereichen Grundlagenforschung, Materialwissenschaften, Biowissenschaften, Umweltwissenschaften und Informatik, einschließlich Grid-Technologie, paralleles Rechnen, Massendatenverarbeitung, Kryptoanalyse, virtuelle Realität und Visualisierungstechnologie. Dieses Zentrum ist ein Meilenstein für die nationale Computing-Umgebung und eine entscheidende Komponente des ChinaGrid-Projekts, einer der weltweit größten Grid-Computing-Implementierungen.

Herausforderung

Die HPC-Ressourcen der Universität Shandong werden für eine Vielzahl von Lerndisziplinen und -umgebungen sowie zur Unterstützung nationaler Initiativen benötigt. Für die Erkenntnisse, die zur Unterstützung der laufenden 5-Jahres-Pläne Chinas benötigt werden, wurden HPC-Ressourcen genutzt. Im Rahmen des Elften, Zwölften und Dreizehnten Fünfjahresplans hat das Shandong Center for High Performance Computing einige wichtige Forschungs- und Entwicklungsprogramme durchgeführt. Es ist auch Teil des Nationalen Plans 863, eines 1986 ins Leben gerufenen Programms zur Förderung der technologischen Entwicklung in China.

Das Hochleistungsrechenzentrum unterstützt die Forschung in den Bereichen künstliche Intelligenz und maschinelles Lernen (KI/ML), experimentelle Lehre und virtuelle/erweiterte Realität, Big Data und anderen Bereichen und dient sowohl erfahrenen als auch unerfahrenen Nutzern. Daher hat die Shandong-Universität die Notwendigkeit erkannt, Rechenressourcen bereitzustellen, die weit über die traditionellen, in den empirischen Wissenschaften verwendeten Simulations- und Modellierungsverfahren hinausgehen. Um den Anforderungen eines sehr unterschiedlichen Nutzerkreises gerecht zu werden, konzentrierte sich das Zentrum auf den Aufbau seines nächsten HPC-Systems, das Environments as a Service (EaaS) bietet.

Der als EaaS betriebene neue Supercomputer musste mehrere Betriebssysteme (OS), verschiedene Softwareversionen (nicht nur die neueste), Deep-Learning-Frameworks und mehr unterstützen, die auf den x86-Befehlssatzprozessoren und GPUs ausgeführt werden konnten. Die Hard- und Software sollte sowohl für die Systemadministratoren als auch für die Benutzer einfach zu verwalten und zu bedienen sein. Diese Lösung sollte sowohl HPC-Cluster-Computing im großen und kleinen Maßstab als auch leistungsstarke Desktop-ähnliche Umgebungen bieten - und das alles über benutzerorientierte Schnittstellen, die die Bereitstellung jeder Umgebung vereinfachen und beschleunigen.

Lösung

Das Shandong Center for High Performance Computing hat bei der Entwicklung seines HPC-Systems intelligenten Mikrocode sowie Container- und mobile Anwendungstechnologien auf einer Cloud-Service-Plattform eingesetzt, die alle auf einer hybriden Architektur basieren. Zur Unterstützung einer hochentwickelten, benutzerfreundlichen Umgebung, die dennoch eine breite Basis von Forschungsanforderungen, eine offene gemeinsame Nutzung und eine effiziente Verwaltung ermöglicht, umfasste die Software das Scannen von Strichcodes. Die Verbesserungen vereinfachen die Benutzeranmeldung, ermöglichen sozialbasierte mobile Anwendungen, um Benachrichtigungen an die Benutzer zu senden, und bieten eine Umgebung, die die Selbstverwaltung von Systemen, Umgebungen, Anwendungen und Daten für jeden Benutzer ermöglicht.

Das neue System der Universität Shandong umfasst die skalierbaren Intel® Xeon® Prozessoren verbunden durch Cornelis Networks Fabric.

Das Projekt begann im März 2017. Das neue System wurde von Huawei und Clustertech entwickelt und umfasst 172 Knoten mit Dual-Socket Intel® Xeon® Gold 6132 Prozessoren, die durch Cornelis Netzwerke miteinander verbunden sind. Die Cloud-Service-Plattform bietet eine Leistung von 380 TeraFLOPS (e)2 mit einer Speicherkapazität von 1,6 PB. Es wurde im Juli 2018 gemeinsam von Huawei, Clustertech, Intel und der Universität gestartet.

Die Systemverwaltungssoftware erlaubt die Konfiguration und Installation per Mausklick sowie die Batch-Installation und unterstützt die dynamische Kapazitätserweiterung oder -reduzierung auf der Grundlage des Serviceverkehrs. Außerdem bietet es ein intelligentes Stromverbrauchsmanagement. Er kann verschiedene Energieeffizienz-Indikatoren überwachen, analysieren und diagnostizieren und auf der Grundlage der Analyse- und Diagnoseergebnisse Maßnahmen zur Senkung des Stromverbrauchs ergreifen. Die Software unterstützt auch die zentrale Überwachung und einheitliche Verwaltung verschiedener Geräte.

Laut Huawei umfasst die Infrastruktur Energiesparmaßnahmen auf Board- und Systemebene, intuitive Echtzeitüberwachung und dynamische Energiespartechnologien 3, die den Stromverbrauch um bis zu 40 Prozent senken:

  • Effiziente unterbrechungsfreie Stromversorgungssysteme (USVs)
  • Klimageräte in Reihe
  • Kühlung durch Frequenzumwandlung
  • Modulares Design
  • Natürliche Kühlkörper
  • Intelligente NetEco-Software zur Verwaltung des Stromverbrauchs

Diese Maßnahmen senken die Gesamtstromverbrauchseffektivität (PUE) auf unter 1,2.

Ergebnisse

Seit der Einführung unterstützt das neue System Projekte mit einer Vielzahl von Betriebssystemen, parallelen Arbeitslasten, KI/ML-Aufgaben, Datenanalysen und mehr.

Das System nutzt die weit verbreitete Nutzung mobiler Geräte, indem es mobile Dienste für die Authentifizierung, die Selbstverwaltung der Arbeitslasten und Daten der Benutzer sowie Push-Benachrichtigungen über Arbeitsaktivitäten und -status integriert. Dadurch können die Nutzer ihre Projekte, die auf dem neuen System laufen, besser kennen und kontrollieren.

Da das System die Anforderungen einer sehr breiten Nutzerbasis aus verschiedenen Forschungsbereichen und Rechenanwendungen erfüllt, ist es für eine Vielzahl von Arbeitslasten ausgelegt. TensorFlow* und Jupyter sind für Deep Learning- und KI-Anwendungen installiert; zahlreiche Bioinformatik-Tools unterstützen einfache Workflows zur Analyse von Biodaten. Der Cluster hat sich zu einer öffentlichen, offenen Plattform entwickelt, in der verschiedene Funktionen zur Analyse biologischer Informationen integriert sind, z. B. das Hochladen und Verarbeiten von Daten, die Zusammenstellung von Sequenzalignments, die Sequenzanalyse, die SNP/WGA-Analyse und die Visualisierung von Daten für die Bioinformatik.

Abbildung 1: Aktuelle Umgebungen und Arbeitsbelastungen

Der neue Cluster unterstützt auch traditionelle rechnergestützte Wissenschaften, einschließlich der rechnergestützten Chemie mit Anwendungen wie Gaussian und GaussView, die den Aufbau, die Analyse und die Visualisierung komplexer Moleküle und Materialien ermöglichen. Durch die Unterstützung des ChinaGrid-Modells für verteiltes Rechnen können Benutzer Cluster-Ressourcen anfordern, die das System dann für ihre Aufgaben zu virtuellen HPC-Clustern orchestriert, und zwar über ein ausgeklügeltes und dennoch einfach zu bedienendes Warteschlangen-Management-System.

Zusammenfassung

Das Zentrum für Hochleistungsrechnen der Universität Shandong benötigte die nächste HPC-Ressource, um eine Vielzahl von Benutzern mit unterschiedlichen Computererfahrungen und Rechenanforderungen zu bedienen. So wurde ein Cluster mit 172 Knoten mit einem hochentwickelten Software-Stack installiert, der traditionelle HPC-Jobs, moderne KI-/ML-Forschung, Datenanalyse und Bioinformatik sowie nicht traditionelle Workloads und persönliche Desktops im Rahmen eines Environment-as-a-Service-Modells unterstützt. Der Cluster wurde auf Intel® Xeon® Gold Prozessoren und einer Cornelis Networks Fabric aufgebaut.

Lösungskomponenten

  • Intel® Xeon® 6132 Gold Prozessoren
  • Cornelis Networks Fabric
  • Server: Huawei FusionServer* 2488H V5/ Huawei FusionServer* 1288H V5 172
  • Datenspeicher – Huawei OceanStor* 2600 V3
  • Dateisystem: Lustre*
  • System Management: Huawei eSight*
  • Infrastruktur: Huawei Fusion Module* 2000

Produkt- und Leistungsinformationen

1

Intel hat das Omni-Path-Geschäft an Cornelis Networks ausgelagert, ein unabhängiges Unternehmen im Intel Capital Portfolio. Cornelis Networks wird Bestands- und Neukunden weiterhin mit führenden, zweckbestimmten Hochleistungs-Netzwerkprodukten für High Performance Computing und künstliche Intelligenz beliefern. Intel ist der Ansicht, dass Cornelis Networks das Technologieumfeld von hochleistungsstarken Fabric-Lösungen erweitern und Optionen für Kunden bieten wird, die mithilfe von Intel® Xeon™ Prozessoren Cluster für HPC und KI erstellen wird. Weitere Einzelheiten zur Veräußerung und Umstellung von Omni-Path-Produkten finden Sie unter www.cornelisnetworks.com.

2

Bitte beachten Sie, dass das „e“ für „geschätzt“ steht. Die Leistungsmessung stammt von der berechneten theoretischen Linpack-Leistung basierend auf CPU und Knotennummer. HPL Linpack Rpeak lautet: 2,6 GHz*14*2*32*172=400TFlops, über 380TeraFlops. Systemkonfiguration: Huawei FusionServer 1288H V5*/ Huawei FusionServer 2488H V5 *172 mit Intel® Xeon® 6132 Gold-Prozessoren (14 Kerne/2,6 G/140 w), Intel® Omni-Path-Architektur (Intel® OPA) Fabric, Huawei OceanStor 2600 V3 *2 (8*80 TB HDD) und entsprechendem 300-TB-Systemdatenträger, Lustre, Huawei eSight* und Huawei Fusion-Modul 2000*.

3

Im System Huawei Fusion-Modul 2000* beträgt die flüssigkeitsgekühlte PUE auf Boardebene ungefähr 1,1 und die durchschnittliche luftgekühlte PUE ungefähr 1,6. Somit wird die Effizienz der Wärmeableitung um ca. 40 % [(1,6-1,1)/1,1] verbessert. Quelle: Huawei.