KISTI: Die Grenzen von Wissenschaft und Technologie neu ausloten

Der mit Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe ausgestattete NURION ist der größte Supercomputer Südkoreas.

Kurzübersicht
Da moderne HPC-Zentren nicht länger nur auf rechenintensive Aufgaben ausgerichtet ist, benötigen sie performante, aber dennoch universell einsetzbare Systeme, mit denen sich die vielen anspruchsvollen und in Widerspruch stehenden Ressourcenanforderungen erfüllen lassen, die benötigt werden, um in einem breiten Spektrum von zunehmend komplexen und datenintensiven Forschungsprojekten bahnbrechende Fortschritte zu erzielen. Darüber hinaus bieten erstklassige Supercomputer wie das NURION-System des Korea Institute of Science and Technology Information (KISTI) Flaggschiff-Tools, die von einer Organisation angeschafft werden, um für die Zukunft gerüstet zu sein – ob es sich nun um wissenschaftliche Themen handelt oder um die wirtschaftlichen Bedürfnisse einer Region zu erfüllen.

„Das KISTI wird in der Industrie, dem akademischen Bereich und der Instituts-Community als zentrale Organisation wachsen, die das wissenschaftliche und technologisch Datenumfeld unterstützt, das Daten teilt und Werte schafft und so einen grundlegenden Baustein für das Innovationswachstum Koreas legt “, so Dr. Hee-yoon Choi (KISTI President)1. Der mit Prozessoren der skalierbaren Intel® Xeon® Prozessorreihe und Intel® Xeon Phi™ Prozessoren ausgestattete und über eine auf der Intel® Omni-Path-Architektur (Intel® OPA) basierende Fabric-Topologie vernetzte NURION Cray* CS500 Cluster mit 146 Racks wurde angeschafft, um den Bereich innovativer Forschung und Entwicklung zu erweitern und das Tempo zu steigern. Der NURION ist der größte Supercomputer Südkoreas und belegt in der Liste der weltweit schnellsten Supercomputer derzeit den 13. Platz2.

Herausforderung
Skalierbarkeit sowie die Notwendigkeit, umfangreiche partielle Differentialgleichungen zu lösen, die schwach besetzten Matrixoperationen umfassen, waren wichtige technische Antriebsfaktoren bei der KISTI-Anschaffung eines leistungsstarken neuen Supercomputers des führenden Leistungssegments. Einfach gesagt waren die Forscher über das Potenzial hinausgewachsen und mussten einen Schritt über die bestehenden, bereits ein Jahrzehnt alten TACHYON-II-Cluster hinaus machen.

Materialforschung ist einer der Anwendungsbereiche, auf den sich das KISTI als führendes Institut für die Forschung und Entwicklung im HPC-Bereich konzentriert hat, da sie das starke Potenzial hat, fortschrittliches Halbleiterdesign voranzubringen, das für die nationale Wettbewerbsfähigkeit Südkoreas wichtig ist. Das KISTI verfolgte insbesondere die Möglichkeit, umfangreiche Atomstrukturen von Festkörpern mittels HPC zu simulieren.

Dr. Soonwook Hwang (General Director and Principal Researcher, Division of National Supercomputing beim KISTI) erklärt es folgendermaßen: „Die Simulation der elektronischen Struktur von Festkörpern realistischer Größe ist ein kritischer Faktor, um Experimentalwissenschaftlern, die an Designs neuer Materialien oder fortschrittlicher elektronischer Geräte arbeiten, zu helfen. Wir gehen davon aus, dass wir Designfaktoren für Komponenten im Nanobereich mit groß angelegten Simulationen, die physikalische Verhaltensweisen von Festkörperstrukturen mit bis zu mehreren Millionen Atomen vorhersagen können, bewältigen können.“

Ansatz
Die effiziente Nutzung der großen Anzahl von Many- und Multi-Core-Prozessoren in großem Maßstab sowie Vektorparallelismus auf Chipebene erfordert sowohl detaillierte Wissenschafts- als auch Ingenieurswissen. Während das KIST mit dem Tachyon-II-Cluster die Führung im HPC-F&E-Bereich in Südkorea im letzten Jahrzehnt fest in der Hand halten konnte, setzt der neue NURION im Bereich der Digitaltechnik neue Maßstäbe ein. Dr. Hwang erklärt: „Unser Projekt Intel® Parallel Computing Center (Intel® PCC) war eine großartige Gelegenheit, um die Intel® Many- und Multi-Core-Prozessoren besser verstehen und nutzen zu können. Mit dem NURION-System sind wir nun bereit, unsere Führungsrolle im HPC-F&E-Bereich in der Republik Korea auszubauen.“

Ergebnisse
Das Gemeinschaftsprojekt Intel PCC hat sich durch rasche Rentabilität ausgezahlt, da KISTI-Forscher bereits erhebliche Erfolge erzielen konnten, obwohl NURION erst vor Kurzem installiert wurde und gerade erst damit begonnen wird, das System öffentlichen Nutzern zur Verfügung zu stellen.

Das Intel PCC Projekt konzentriert sich auf die Entwicklung eines Softwarepakets für Tight-Binding-Simulationen umfangreicher elektronischer Strukturen. Dr. Hoon Ryu (Intel PCC Lead and Principal Researcher, Center for Applied Scientific Computing beim KISTI) erklärt: „Der Code ist nützlich für fortgeschrittene Halbleiterkomponenten, die ein wichtiger nationaler Wirtschaftszweig Südkoreas sind.“ Das KISTI war 2013 das erste Intel PCC im asiatisch-pazifischen Raum.

Dr. Ryu setzt fort: „Diese Arbeit muss im Grunde genommen eine Schrödinger-Gleichung lösen, die in der Regel Nanostrukturen umfasst, welche aus zehntausenden Atomen bestehen, die numerisch mit Systemmatrizen mit einer Milliarde Freiheitsgrade (DoF – Degrees of Freedom) beschrieben werden. Infolgedessen werden für die Parallelisierung wichtiger numerischer Operationen, einschließlich Eigenwertproblemen mit umfassenden Systemmatrizen, definitiv skalierbare Prozessoren benötigt. Mit Intel Xeon Phi Prozessoren sind wir in der Lage, eine enorme Reduzierung von End-to-End-Simulationszeiten für Millionen atomarer Systeme voranzubringen.“

NURION-Supercomputer: Highlights

  • In der TOP500-Liste der weltweit schnellsten Supercomputer vom November 2018 an 13. Stelle3
  • Mit einer Ausstattung, die sowohl Prozessoren der skalierbaren Intel Xeon Prozessorreihe als auch Intel Xeon Phi Prozessoren umfasst, und Nutzung der Intel Omni-Path-Architektur ist der NURION der größte Supercomputer in Südkorea.
  • Er ist dafür ausgelegt, die Ressourcen bereitzustellen, um in einem breiten Spektrum von zunehmend komplexen, datenintensiven Herausforderungen im Bereich Modellierung, Simulation, Analyse und KI bahnbrechende Fortschritte zu erzielen.

Anwendungsfall: Skalierung bis zu über 1.000.000 Atomen
Dr. Min Sun Yeom (Director und Principal Researcher, Center for Applied Scientific Computing am KISTI) erläutert: „Mit der Ausführung von Tight-Binding-Simulationen von Nanostrukturen, die über 1.000.000 Atome haben, auf dem NURION-System waren wir in der Lage, die Auswirkung von Größen- und Struktur-Engineering auf die Bandlückenenergie physikalisch realisierbarer Nanostrukturen aus Blei-Halogenid-Perowskiten in einer vernünftigen Zeitspanne zu erzielen. Wir konnten uns auch eine erste Vorstellung davon verschaffen, wie die lichtinduzierte Phasentrennung in Halogenid-Mischungen reduziert werden kann, was mit DFT-Simulationen, die im Normalfall Festkörper, die aus Hunderten von Atomen bestehen, bewältigen, nicht möglich wäre.“

Metallhalogenid-Perowskit ist ein vielversprechendes Material für optoelektronische Geräte und bietet damit einen Motivationsfaktor für die systemempirische Modellierung umfangreicher Atomstrukturen. Kurz gesagt kann es nützliche Richtlinien für Komponentendesigns bieten, etwa wie sich optische Lücken zuordnen lassen und wie lichtinduzierte Phasentrennung (einem Engpass bei LED-Designs) reduziert werden kann. Das beste Teil der empirischen Modellierung besteht darin, dass sie direkte Verbindungen zu Experimenten bereitstellen kann.

Verbindung von Experimenten und umfangreichen Simulationen (a) Experimentalabbildung von Perowskit(CsPbBr3)-Quantenpunkten (Nano Letters 15, 3692-366) (b) Abhängigkeit der Bandlückenenergien von Quantenpunktgrößen. Die numerischen KISTI-Ergebnisse zeigen eine gute Verbindung zum Experiment.

Dr. Ryu weist darauf hin, dass die Verwendung der Intel® Math Kernel Library (Intel® MKL) bei der Skalierung der Berechnungen geholfen hat: „Intel MKL (scalapack-Pakete wie lib_scalapack_lpap01.edruck_64 und libmkl_blacs_intelmpi_lp64) waren für die Verbesserung der Skalierbarkeit unseres Schrödinger-Solvers sehr hilfreich. Wir verwendeten den LANCZOS-Algorithmus, eine bekannte iterative Methode für die Bewältigung umfangreicher Eigenwertprobleme, die einen numerischen Teil aufweist, dessen MPI-Parallelisierung für Benutzer schwer zu erreichen ist und im Laufe des iterativen Prozesses zu einem Leistungsengpass wird. Mit den Intel MKL-Subroutinen konnten wir die entsprechende Rechenlast mit verbesserter Skalierbarkeit reduzieren.“

Anwendungsfall: Many-Core-Leistung auf schwach besetzten Matrixoperationen
In Bezug auf frühere Arbeit auf der ersten Generation der Intel Xeon Phi Coprozessoren sagt Kyu Nam Cho (ehemaliger Research Associate an der Korea University und heute Principal Engineer bei Samsung Research, Samsung Electronics): „Die Leistung schwach besetzter Matrixvektormultiplikation, der wichtigsten numerischen Operation für die Lösung umfangreicher elektronischer Strukturen, war bei unserer Arbeit mit der ersten Generation von Many-Core-Prozessoren (Intel Xeon Phi Coprozessoren) im Vergleich zu Intel® Xeon® Prozessoren v3 gar nicht schlecht. Die Leistung auf den NURION Intel Xeon Phi Knoten ist deutlich besser, insbesondere in Verbindung mit MCDRAM.“ Cho stellt fest: „Eine weitere kritische Stärke von Systemen, die auf Intel Xeon Phi Prozessoren basieren, ist ihre Benutzerfreundlichkeit, inbesondere wenn wir die Menge an Arbeit berücksichtigen, die für die Portierung des bestehenden Codes hinsichtlich der Ausführung auf PCI-E-Add-in-Geräte erfolgen muss.“

Das KISTI Intel PCC stellte fest, dass die infolge der Leistung des High-Bandwidth Memory (HMB) von Intel Xeon Phi Prozessoren erzielte Beschleunigung bedeutete, dass ein einzelner Knoten ein größeres Workload übernehmen konnte. Dr. Ryu weist darauf hin, dass „Inter-Node-Skalierbarkeit eine ziemlich feine Sache ist.“ Skalierbarkeitstests zeigen eine Beschleunigung, wenn die Anzahl der Rechenknoten erhöht wird. Das KISTI Intel PCC beobachtete eine 1,5-fache bis 3-fache Beschleunigung4, wenn der in Intel Xeon Phi Many-Core-Prozessoren 7250 integrierte High-Bandwidth Memory (HMB) verwendet wurde. Zuletzt führten sie erfolgreich eine 0,4 Mrd. große Atomstruktur auf dem NURION-System aus und erhöhten die starke Skalierbarkeit auf bis zu 2.500 Rechenknoten (170.000 CPU-Kerne).

Dr. Ryu stellt fest, dass „Intel® Technik dem Zweck des KISTI-HPC entspricht.“ Laut einer vom KISTI durchgeführten statistischen Workload-Analyse umfassen etwa 50 % der dort ausgeführten Workloads schwach besetzte Matrixoperationen. Das bedeutet, dass der NURION-Supercomputer die Anforderungen von KISTI-Forschern in einem breiten Spektrum an Forschungsbereichen gut erfüllen sollte.

Erzielte Leistung
Die Bedeutung, die umfassende Simulationen für fortschrittliche Materialforschung für Südkorea hat, darf nicht unterschätzt werden, wie die Investitionssumme für die Beschaffung eines erstklassigen Supercomputers zeigt5. Aus diesem Grund führte das KISTI Intel PCC eine kritische Bewertung verschiedener Hardware-Lösungen durch, auf denen die NURION-Beschaffung basieren könnte – einschließlich GPU-beschleunigter Systeme. Die Ergebnisse wurden in der Dokumentation für Intel Prozessoren6 f:​​​​​​https://www.researchgate.net/publication/307613037 Time-efficient simulations of tight-binding electronic structures with Intel Xeon PhiTM many-core processors​​​​​​] 7 und GPUs8 veröffentlicht. Als solide technische Beweise zeigen sie, warum die Wahl für NURION auf ein System mit Intel® Prozessoren fiel, das 25,7 PFlop/s (Rpeak) und 13,9 PFlop/s (Rmax)9 liefert und damit in der TOP500 vom November 2018 auf dem 13. Platz liegt.10 Dr. Ryu schreibt an einem Whitepaper, um das gesamte Bild des Vergleichs CPU vs. GPU in einem Artikel zu schildern, die später in diesem Jahr veröffentlicht werden soll.11

Starke Skalierbarkeit für End-to-End-Simulationen (a) BMT-Ziel mit geringem Umfang bestand in Berechnung der 5 geringsten Leitungsbandzustände für 27 x 33 x 33 nm3 (~1,5 Millionen Atome) SI:P-Quantenpunkt12Die Skalierbarkeit wird hier für bis zu 3 Rechenknoten (204 Kerne) getestet. (b) BMT-Ziel mit extrem großem Umfang bestand in Berechnung der 3 geringsten Leitungsbandzustände für 2715 x 54 x 54 nm3 SI:P-Nanodrähte (0,4 Milliarden Atome). Die Skalierbarkeit wird hier für bis zu 2.560 Rechenknoten (170.000 Kerne) im NURION-System getestet.

KISTI-Mitarbeiter, die skalierbare Simulationen extremer großer elektronischer Strukturen auf dem NURION-System ermöglicht haben: (von links) Dr. Hoon Ryu, Dr. Ji-Hoon Kang (Principal Researcher, Center for Applied Scientific Computing), Mr. Taeyoung Hong (NURION Operation Team Lead and Senior Researcher, Supercomputing Service Center

Informationen über zugehörige Produkte und Lösungen

Intel® Omni-Path-Architektur

Die Intel® Omni-Path-Architektur (Intel® OPA) senkt die System-Gesamtbetriebskosten und sorgt zugleich für Zuverlässigkeit, starke Leistung und extreme Skalierbarkeit.

Weitere Infos

Intel® Select Solutions

Stellen Sie eine vereinfachte Rechenzentrumsinfrastruktur zur Verfügung, die eine für unterschiedliche Aufgaben optimierte Konfiguration für schnelle und einfache Bereitstellung bietet.

Weitere Infos

Hinweise und Disclaimer

Durch Intel® Technik ermöglichte Funktionsmerkmale und Vorteile hängen von der Systemkonfiguration ab und können entsprechend geeignete Hardware, Software oder die Aktivierung von Diensten erfordern. Die Leistungsmerkmale variieren je nach Systemkonfiguration. Kein Computersystem bietet absolute Sicherheit. Informieren Sie sich beim Systemhersteller oder Einzelhändler oder auf https://www.intel.de. In Leistungstests verwendete Software und Workloads können speziell für die Leistungseigenschaften von Intel® Mikroprozessoren optimiert worden sein. Leistungstests wie SYSmark und MobileMark werden mit spezifischen Computersystemen, Komponenten, Softwareprogrammen, Operationen und Funktionen durchgeführt. Jede Veränderung bei einem dieser Faktoren kann abweichende Ergebnisse zur Folge haben. Für eine umfassende Bewertung Ihrer vorgesehenen Anschaffung, auch im Hinblick auf die Leistung des betreffenden Produkts in Verbindung mit anderen Produkten, sollten Sie zusätzliche Informationen und Leistungstests heranziehen.Ausführlichere Informationen finden Sie unter https://www.intel.de/benchmarks. Die Leistungsergebnisse basieren auf Tests, die zum Zeitpunkt, der in den Konfigurationen angegeben ist, durchgeführt wurden und berücksichtigen möglicherweise nicht alle öffentlich verfügbaren Sicherheitsupdates. Weitere Einzelheiten finden Sie in den veröffentlichten Konfigurationsdaten. Kein Produkt und keine Komponente bieten absolute Sicherheit. // Die beschriebenen Kostensenkungsszenarien sind als Beispiele dafür gedacht, wie ein bestimmtes Produkt mit Intel®-Technik unter den genannten Umständen und in der angegebenen Konfiguration zukünftige Kosten beeinflussen und Einsparungen ermöglichen kann. Die Umstände unterscheiden sich von Fall zu Fall. Intel übernimmt keine Gewähr für Kosten oder Kostensenkungen. // Intel hat keinen Einfluss auf und keine Aufsicht über die Benchmarkdaten Dritter oder die Websites, auf die in diesem Dokument Bezug genommen wird. Besuchen Sie die genannten Websites, um sich davon zu überzeugen, dass die angeführten Benchmarkdaten zutreffen. // Bei einigen Tests wurden die Ergebnisse unter Verwendung interner Analysen oder Architektursimulationen bzw. -modellen von Intel geschätzt oder nachempfunden. Sie dienen nur informatorischen Zwecken. Unterschiede in der Hardware, Software oder Konfiguration des Systems können die tatsächliche Leistung beeinflussen.

Produkt- und Leistungsinformationen

1 Intel Xeon Phi 7250 Knoten; 68 Kerne/Knoten mit 2 MPI-Prozessen + 32 Threads pro Knoten; Quad/Flat-Memory-Modus; 100-Gbit/s-Netzwerkschnittstelle. 2500 Intel Xeon Pi Knoten, insgesamt 68 x 2500 Kerne wurden für den Benchmarktest des internen KISTI-Codes verwendet. BIOS: S72C610.86B.01.03.0018.C0001.012420182107; Arbeitsspeicher: 96 GB DDR4-2400 + 16 GB 7,2-GT/s-MCDRAM; Netzwerk und Datenspeicher: Intel Omni-Path-Architektur, 100-Gbit/s-Netzwerkschnittstelle; BS- und Kernel-Details: CentOS Linux Release 7.3, Linux-Kernel 3.10.0- 514.26.2.el7.x86-64; Anwendungssoftware: Quantum-Simulationstool für Advanced Nanoscale Devices; getestet durch KISTI im November 2018.
4Der Test wurde durch das KISTI im November 2018 durchgeführt. Rmax ist die maximal erreichte LINPACK-Leistung; Rpeak ist die theoretische Spitzenleistung laut TOP500.org. Konfiguration: Intel Xeon Phi 7250 Knoten; bis zu 272 (68 x 4 ) Kerne/Knoten mit 4 MPI + 68 Threads pro Knoten; Quad/Flat-Memory-Modus; 10-Gigabit-Netzwerkschnittstelle.
7Ji-Hoon Kang, Oh-Kyoung Kwon, Jinwoo Jeong, Kyunghun Lim, Hoon Ryu: Performance Evaluation of Scientific Applications on Intel Xeon Phi Knights Landing Clusters. HPCS 2018: 338-341.
8GPU-Ergebnisse wurden veröffentlicht in „Fast, energy-efficient electronic structure simulations for multi-million atomic systems with GPU devices“ von Hoon Ryu und Oh-Kyoung Kwon im Journal of Compu­tational Electronics (2018) 17:698–706, https://doi.org/10.1007/s10825-018-1138-4.
9Test durch KISTI im November 2018. Rmax ist die maximal erreichte LINPACK-Leistung; Rpeak ist die theoretische Spitzenleistung laut TOP500.org. Konfiguration: Intel Xeon Phi 7250 Knoten; bis zu 272 (68 x 4) Kerne/Knoten mit 4 MPI-Prozessen und 68 Threads pro Knoten; Quad/Flat-Memory-Modus; 10-Gigabit-Netzwerkschnittstelle.
10Derzeit laut TOP500-Liste von November 2018.
11Bitte sehen Sie in der Veröffentlichungsliste von Dr. Ryu nach, wann der Artikel veröffentlicht wird: https://www.researchgate.net/profile/Hoon_Ryu
12Si:P-Legierungsstrukturen wurden gemeinhin untersucht, um Si-basierte Qubit-Systeme zu bauen. Siehe Nature Nanotechnology 9, 430 – 435, und Nano Letters 15, 1, 450-456.
13https://www.intel.com/content/www/us/en/programmable/solutions/acceleration-hub/platforms.html