CERN beschleunigt Simulations-Workloads mithilfe von KI

CERN-Forscher erzielen durch den Einsatz von Intel® DL Boost und oneAPI mit skalierbaren Intel® Xeon® Prozessoren eine schnellere Inferenzierung.

Auf einen Blick:

  • Physiker und Forscher vom CERN, der Europäischen Organisation für Kernforschung, nutzen einzigartige Teilchenbeschleunigeranlagen, um die grundlegendsten Bestandteile der Materie zu erforschen – die Fundamentalteilchen.

  • Zukünftige Erweiterungen des LHC (Large Hadron Collider) des CERN werden zu erheblich höheren Kollisionsraten der Teilchen führen. Die Forscher verwendeten das Intel® AI Analytics Toolkit, um eine höhere Leistung bei der Inferenzierung mit skalierbaren Intel® Xeon® Prozessoren mit Intel® Deep Learning Boost zu erzielen.

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Kurzübersicht:

Bei ihrem Bestreben, Simulations-Workloads zu beschleunigen, machten die Forscher von Methoden Gebrauch, die sehr wahrscheinlich eine breite Anwendbarkeit hinsichtlich der Beschleunigung von Monte-Carlo-basierten Simulationen und Deep-Learning-Inferenzierung im Allgemeinen bieten werden. Ihre Ergebnisse verdeutlichten die Wirksamkeit der in den skalierbaren Intel® Xeon® Prozessoren integrierten KI-Beschleunigungsfunktionen.

Das Training von GANs und der Einsatz von Intel DL Boost zur Beschleunigung durch Quantisierung ohne Einbußen hinsichtlich der Genauigkeit eröffnet interessante neue Möglichkeiten für alle Anwendungen, die Monte-Carlo-Simulationen verwenden.

Herausforderung

Physiker und Forscher vom CERN, der Europäischen Organisation für Kernforschung, nutzen einzigartige Teilchenbeschleunigeranlagen, um die grundlegendsten Bestandteile der Materie zu erforschen – die Fundamentalteilchen. Das Worldwide LHC Computing Grid, ein globales Projekt, an dem mehr als 170 Computing Centers aus 42 Ländern beteiligt sind, wird für die Simulation und zudem für die Analyse und Speicherung der riesigen Datenmengen genutzt, die durch diese Forschungsarbeiten generiert werden.

Ingenieure beobachten, wie die kleine Myonenkammer in den Hohlraum abgesenkt wird, als Vorbereitung für aktuelle, groß angelegte Allzweck-ATLAS-Experimente. Die Kammer erkennt die Kollisionen, die die Daten für die Analyse liefern. Das Foto wurde mit Genehmigung von © CERN verwendet.

Die Forscher vom CERN, von SURFsara und Intel haben sich damit beschäftigt, neue Methoden zu entwickeln, um fortschrittliche, neuartige Monte-Carlo-basierte Simulationen zu ermöglichen und so die zukünftigen Anforderungen des LHC (Large Hadron Collider – der größte Teilchenbeschleuniger der Welt) des CERN zu erfüllen. Zukünftige Erweiterungen des LHC werden zu erheblich höheren Kollisionsraten der Teilchen führen. Im Anschluss an die Kollisionen der LHC-Experimente werden Kalorimeter zur Messung der Energie eingesetzt, die ein Teilchen beim Durchlaufen des Detektors verliert. Die Interpretation der Daten von Kalorimetern erfolgt durch Monte-Carlo-basierte Simulationen, die die Kollisionen auf effektive Weise rekonstruieren.

Das Forschungsteam wollte einen Deep-Learning-Inferenzierungs-Workload beschleunigen, der viel schnellere Ergebnisse als Monte-Carlo-basierte Simulationen versprach. Diese Arbeit wird im Rahmen der langjährigen Zusammenarbeit von Intel mit dem CERN über das CERN openlab durchgeführt. CERN openlab ist eine öffentlich-private Partnerschaft, die 2001 ins Leben gerufen wurde, um die Innovation im Bereich Informations- und Kommunikationstechnik (ICT) zu beschleunigen. Mittlerweile arbeiten Intel und CERN gemeinsam an einer Vielzahl von Untersuchungen, von der Evaluierung von Hardware bis hin zu HPC und KI.

Lösung

Die Forscher verwendeten das Intel AI Analytics Toolkit, um eine höhere Leistung bei der Inferenzierung mit skalierbaren Intel Xeon Prozessoren mit Intel® Deep Learning Boost (Intel DL Boost) zu erzielen. Intel DL Boost erweitert den AVX-512-Befehlssatz, um eine wesentlich effizientere Inferenzbeschleunigung für Deep-Learning-Workloads zu ermöglichen.

Darüber hinaus liefern diese Untersuchungen Erkenntnisse bezüglich der Beschleunigung von Modellen, die auf Monte-Carlo-Simulationen angewiesen sind und auch für viele andere Bereiche nützlich sein könnten.

Die integrierte KI-Beschleunigung durch Intel DL Boost spielte eine zentrale Rolle für die Leistungssteigerung des Projekts. Es konnte nachgewiesen werden, dass Intel DL Boost die Inferenzierung ohne Einbußen hinsichtlich der Genauigkeit beschleunigen kann.

Ergebnisse

Die Forscher demonstrierten die Leistungssteigerungen anhand der Simulation eines Kalorimeters für einen potenziellen zukünftigen Teilchenbeschleuniger – unter Verwendung eines Conditional Generative Adversarial Network (GAN) –, und das mit nur einem Bruchteil der zuvor benötigten Rechenressourcen. Ihr Ansatz, GANs zu trainieren und durch den Einsatz von Intel DL Boost durch Quantisierung zu beschleunigen, ohne die Genauigkeit zu beeinträchtigen, eröffnet interessante neue Möglichkeiten für alle Anwendungen, die Monte-Carlo-Simulationen verwenden.

(Abbildung 2, links) Die Quantisierung führte zu einer 1,8-fachen1 Geschwindigkeitssteigerung durch die Verwendung von Intel® DL Boost (speziell INT8-Berechnungen) auf einem Intel® Xeon® Platinum 8280 Prozessor, und es konnte auch eine leicht verbesserte Genauigkeit festgestellt werden.

(Abbildung 3, rechts) Das Multistreaming der Inferenzierung steigerte die Leistung um das 2,2-fache1 auf einem Intel Xeon Platinum 8280 Prozessor mit Intel DL Boost.

Diese Forschungsarbeiten haben weitreichende Auswirkungen. Nach Beobachtungen von Dr. Sofia Vallecorsa, einer auf KI- und Quantenforschung spezialisierten Physikerin des CERN, werden mehr als die Hälfte der Rechenressourcen des Worldwide LHC Computing Grid für Simulationen aufgewendet. Leistung, Kosten und Genauigkeit sind für den Einsatz ihres trainierten Modells von entscheidender Bedeutung.

Wie in Abbildung 2 dargestellt, konnte das Team eine 1,8-fache Steigerung bei der komplexen GAN-Modell-Inferenzierung feststellen. Auch die Genauigkeit hat sich leicht verbessert (niedriger ist besser: INT8-Genauigkeit von 0,05324 gegenüber FP32-Genauigkeit von 0,061227).1

Die Quantisierung führte zu einer 1,8-fachen Geschwindigkeitssteigerung durch die Verwendung von Intel® DL Boost (speziell INT8-Berechnungen) auf einem Intel® Xeon® Platinum 8280 Prozessor, und es konnte auch eine leicht verbesserte Genauigkeit festgestellt werden.1

Zusammenfassung

Um ihr Modell, ohne Einbußen hinsichtlich der Genauigkeit, für die Verwendung von Intel DL Boost anzupassen, verwendeten die Forscher des CERN das Intel Low Precision Optimization Tool – eine neue Open-Source-Python-Bibliothek, die automatische, von der Genauigkeit abhängige Tuning-Strategien unterstützt. Das Tool hilft dabei, die Bereitstellung von Inferenzierungs-Lösungen mit niedriger Genauigkeit auf gängigen DL-Frameworks wie TensorFlow, PyTorch, MXNet usw. zu beschleunigen. Das Tool ist auf der GitHub-Website verfügbar und ist im Intel AI Analytics Toolkit neben für die Intel Technik optimierten Versionen von TensorFlow, PyTorch und vortrainierten Modellen zur Beschleunigung von Deep-Learning-Workflows enthalten. Abbildung 4 veranschaulicht den Fluss, der während der automatisierten automatischen Quantisierungs-Abstimmung verwendet wurde.

Die CERN-Forscher ermittelten, dass etwa die Hälfte der Berechnungen in ihrem Netzwerk ohne Verlust an Genauigkeit von float32 zu INT8 (numerische Präzision) wechseln konnten, die von Intel DL Boost unterstützt wird. Die Leistung konnte dadurch fast verdoppelt werden1. Das entspricht der Erwartungshaltung, dass sich bei einer kompletten Umstellung von float32 auf INT8 ein bis zu maximal 4-facher theoretischer Leistungsgewinn durch zusätzliche Rechenleistung und Reduzierung der Speicherbandbreite ergeben könnte. Angesichts der Tatsache, dass lediglich die Hälfte des Netzwerks konvertiert wurde, ist es verständlich, dass die Steigerung knapp unter dem Faktor 2 lag, während der Faktor 4 das theoretische Maximum für eine vollständige Konvertierung darstellt.

Abbildung 4: Die Quantisierung wird mit voller Kontrolle über die Vor- und Nachteile hinsichtlich der Genauigkeit erreicht, was zu erheblichen Leistungssteigerungen bei der Inferenzierung führt.

Diese Darstellung, die einem der beiden großen Allzweck-Experimente ähnelt, die für die Entdeckung des Higgs berüchtigt sind, veranschaulicht den Compact Muon Solenoid (CMS)-Detektor sowie das Kandidatenereignis, bei dem drei W-Bosonen erzeugt werden. Das Foto wurde mit Genehmigung von © CERN verwendet.

Die Unterstützung von Intel DL Boost in den skalierbaren Intel Xeon Prozessoren erwies sich als gut geeignete Lösung für die Beschleunigung der Inferenzierung, ohne dabei die Genauigkeit zu beeinträchtigen.

Es ist wichtig anzumerken, dass diese bedeutende Leistungssteigerung ohne Abstriche hinsichtlich der Genauigkeit erreicht wurde. Eine komplette Umstellung auf INT8 würde eine bessere Leistung zur Folge haben, aber auch einen Verlust in puncto Genauigkeit mit sich bringen, den dieses Team für seine Zwecke nicht wünschte. Die Quantisierung ist eine wichtige Methode, die dank Tools, die eine automatische, auf Genauigkeit ausgerichtete Abstimmung unterstützen, relativ unkompliziert ist. Dadurch können Benutzer Leistungssteigerungen erzielen und gleichzeitig die Genauigkeit auf ein gewünschtes Niveau bringen.

Die Quantisierung erweist sich als effektives Verfahren zur Beschleunigung der Inferenzierung, und die skalierbaren Intel Xeon Prozessoren mit integrierter Unterstützung für KI-Beschleunigung (Intel DL Boost) mit INT8 verdeutlichen, wie leistungsstark dieses Verfahren sein kann. Die Leistung wurde im Vergleich zum vorherigen 32-Bit nahezu verdoppelt. Die Genauigkeit konnte dank des Open-Source-Quantisierungs-Tools beibehalten werden.

Die FP32- und INT8-Inferenzierung wurden beide für Multicore optimiert. Valeriu Codreanu, Leiter des Bereichs High-Performance-Computing und der Visualisierung bei SURF, erläutert diese Leistungsoptimierung: „Da die Inferenzierung weniger rechenintensiv ist als das Training (da nur der „erzeugende“ Teil des GAN verwendet wird), ist die Hardware-Effizienz bei Verwendung mehrerer Kerne in diesem Prozess nicht optimal. Um dieses Problem zu lösen, haben wir Multistream-quantisierte Inferenzierung verwendet und damit einen 2,2-fachen1 Geschwindigkeitszuwachs im Vergleich zu Single-Stream-quantisierter Inferenzierung erreicht – und das unter Verwendung des gleichen Intel Xeon Platinum 8280 Systems.“ Dies ist in Abbildung 3 dargestellt.

Das Multistreaming der Inferenzierung steigerte die Leistung um das 2,2-fache1 auf einem Intel Xeon Platinum 8280 Prozessor mit Intel DL Boost.

Wichtige Teile der verwendeten Tools, darunter die in TensorFlow und Python steckende Beschleunigung, nutzen Bibliotheken mit oneAPI-Unterstützung. Das bedeutet, dass sie für diverse heterogene Systeme ausgelegt sind und nicht nur für einen bestimmten Hersteller oder ein bestimmtes Produkt (z. B. GPU).

oneAPI ist ein branchenübergreifendes, auf offenen Standards basierendes, einheitliches Programmiermodell, das eine gemeinsame Entwicklererfahrung für sämtliche Beschleunigerarchitekturen bietet. Intel hat bei der Entwicklung von oneAPI mitgewirkt und unterstützt es mit einer Reihe von Open-Source-Compilern, Bibliotheken und anderen Tools.

Durch die Programmierung zur Verwendung von INT8 mittels oneAPI könnte die in dieser Fallstudie beschriebene Art von Arbeit mithilfe von Intel® Iris Xᵉ GPUs, FPGAs oder jedem beliebigen anderen Gerät, das INT8 oder andere numerische Formate unterstützt, für die sie quantisieren können, durchgeführt werden.

Lösungskomponenten

Videopräsentation „Increasing AI Inference with Low-Precision Optimization Tool with Intel Deep Learning Boost–A High Energy Physics Use Case“ von Haihao Shen (Intel) und Dr. Sofia Vallecorsa (CERN openlab).

CERN-Artikel „Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case“, das auf der „10th International Conference on Pattern Recognition Applications and Methods“ im Februar vorgestellt wird.

CERN GAN Arbeit

Informationen über zugehörige Produkte und Lösungen

Produkt- und Leistungsinformationen

1CERN-Artikel „Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case“, das auf der „10th International Conference on Pattern Recognition Applications and Methods“ im Februar vorgestellt wird. http://www.icpram.org/