Preferred Networks – Deep Learning Supercomputer

Skalierbare Intel® Xeon® Prozessoren der 2. Generation und persistenter Intel® Optane™ Speicher ermöglichen eine schnellere Datenpipeline.

Auf einen Blick:

  • Preferred Networks (PFN) entwickelt Lösungen mit künstlicher Intelligenz für Industrie- und Haushaltsrobotik, Industrial Internet of Things (IIoT), Fertigungssysteme und andere Branchen.

  • Herkömmliche SSDs konnten die Anforderungen an den E/A-Durchsatz des neuen, kundenspezifisch entwickelten Beschleunigers für Deep Learning von PFN nicht erfüllen. Daher bediente man sich der SuperServer-Hardware von Supermicro mit Intel® Xeon® Platinum 8260M Prozessoren und dem persistenten Intel® Optane™ Speicher, um einen ausgewogenen Knoten mit schnellem Zugriff und hoher Kapazität für Trainingsdaten zu ermöglichen.

author-image

By

Kurzübersicht

Preferred Networks (PFN) verwendet Intel® Xeon® Platinum 8260M Prozessoren und persistenten Intel® Optane™ Speicher, um eine hochleistungsfähige Datenpipeline zu schaffen, die ihren kundenspezifischen, hochleistungsfähigen Trainingsbeschleuniger für Deep Learning in ihrem neuen MN-3 HPC-System versorgt. Preferred Networks mit Sitz in Tokio ist ein Deep Learning-Unternehmen, das High-Performance-Computing (HPC)-Cluster bereitstellt, um Algorithmen für häusliche und industrielle Anwendungen zu entwickeln und trainieren. In ihr neuestes System, MN-3, ist ein speziell von ihnen entwickelter Deep Learning-Beschleuniger integriert. Der persistente Intel Optane Speicher bietet die Kapazität und Geschwindigkeit, die für die Einspeisung von Daten in den Beschleuniger erforderlich sind, sodass eine hohe Trainingsleistung erzielt wird.

Herkömmliche SSDs konnten die Anforderungen der neuen Architektur an den E/A-Durchsatz nicht erfüllen. Daher setzte Preferred Networks Intel® Xeon® Platinum 8260M Prozessoren und persistenten Intel® Optane™ Speicher ein, um einen ausgewogenen Knoten mit schnellem Zugriff und hoher Kapazität für Trainingsdaten zu ermöglichen.

Herausforderung

Preferred Networks entwickelt Lösungen mit künstlicher Intelligenz für Industrie- und Haushaltsrobotik, Industrial Internet of Things (IIoT), Fertigungssysteme und andere Branchen. Das Unternehmen ist führend in der Revolution der Robotik.1

Das Forschungs- und Entwicklungsteam (F&E) des Unternehmens verwendet HPC-Systeme, die speziell zur Erstellung und zum Training von Algorithmen für automatisierte Funktionen entwickelt wurden, wie z. B:

  • Prädiktive Analyse von Industriemaschinen zur Optimierung ihrer Nutzung und Wartung, um die Produktivität zu erhöhen
  • Steuerung eines Roboters, damit er sich in einem Haus leicht zurechtfindet, fehlplatzierte Gegenstände erkennt, sie aufnimmt und dorthin bringt, wo sie hingehören
  • Andere autonome Operationen auf der Grundlage der Bildverarbeitung

Die größten F&E-Supercomputer von Preferred Network, MN-1 und MN-2, umfassen insgesamt mehr als 2500 GPUs. Dennoch musste Preferred Networks die Berechnungen beschleunigen, um die vielen Projekte zu unterstützen, an denen das Technikerteam arbeitet.

Lösung

„Wir sind der Auffassung, dass unsere Ingenieure und Forscher durch mehr Rechenleistung produktiver werden“, erläuterte Yusuke Doi, Vizepräsident der Arbeitsgruppe Computing-Infrastruktur. „Indem wir in puncto Rechenkapazitäten eine Führungsposition behalten, können wir in unserer Branche besser konkurrieren und unseren Kunden fortschrittliche Lösungen anbieten.“

Daher hat Preferred Networks einen einzigartigen, kundenspezifischen Beschleuniger namens MN-Core entwickelt.2 MN-Core ist ein kundenspezifischer Prozessor, der auf einem Vier-Chip-Paket basiert, das speziell für die eigenen F&E-Projekte von PFN entwickelt wurde. Das Vierfach-Chip-Paket – spezialisiert auf Deep Learning-Trainingsaufgaben – steht im Mittelpunkt eines Entwurfs für einen neuen Supercomputing-Cluster, MN-3. Aufgrund des dramatischen Anstiegs der Rechenleistung stießen sie jedoch auf E/A-Engpässe, als sie begannen, den Datenladepfad für das Trainingssystem zu entwerfen und auszuwerten.

Viele der Projekte von Preferred Networks betreffen Probleme mit dem maschinellen Sehen. Der Trainingsdatensatz, der aus Millionen von JPEG-Bilddateien besteht, wird in einem großen externen Speichersystem archiviert. Es ist nicht sinnvoll, die gesamte Datenbasis direkt im Systemspeicher abzulegen, damit die Vorteile des schnelleren Zugriffs genutzt werden können. Zum Training werden die Daten zunächst auf die Knoten in hochleistungsfähigen NVMe SSD-Laufwerken kopiert.

Skalierbare Intel® Xeon® Prozessoren der 2. Generation und persistenter Intel® Optane™ Speicher ermöglichen eine bis zu 3,5-mal schnellere Datenpipeline3 

„Wir haben zunächst die Leistung der Knoten mit den Intel Xeon 8260M Prozessoren verglichen“, erklärte Ingenieur Tianqi Xu von Preferred Networks. „Während der E/A-Phase muss der Prozessor die JPEG-Dateien aus dem Blockspeicher in den Arbeitsspeicher holen, sie dekodieren und dann modellspezifische Erweiterungen durchführen. Mit den skalierbaren Intel® Xeon® Prozessoren der 2. Generation und den aktuellen GPUs war der Knoten für E/A, Berechnungen und Speicherung gut ausbalanciert.

Aber angesichts der Terabytes an Daten, die während des Trainings bewegt werden müssen, und der E/A-Herausforderungen, die im Datenpfad entdeckt wurden, wäre die herkömmliche Speicherhierarchie mit SSDs nicht in der Lage, mit dem benutzerdefinierten Beschleuniger Schritt zu halten. Der Beschleuniger würde regelrecht nach Daten hungern. Preferred Networks benötigte eine hohe Massenspeicherkapazität bei DIMM-ähnlichen Geschwindigkeiten im Knoten. Die Ingenieure arbeiteten direkt mit Intel zusammen, um zu verstehen, wie die hohe Speicherbandbreite von skalierbaren Intel Xeon Prozessoren der 2. Generation und die Unterstützung für den persistenten Intel Optane Speicher mit hoher Kapazität eine sehr schnelle und sehr große Datenpipeline schaffen könnten.

Nachdem Preferred Networks Kenntnis von der Fähigkeit des persistenten Intel® Optane™ Speichers zur Beschleunigung ihrer KI-Pipeline erhalten hatte, führten sie einen Proof-of-Concept durch, um zu verifizieren, dass das Design eine hohe Speicherkapazität unterstützen würde. Intel berät das Unternehmen weiterhin bei der Weiterentwicklung der KI-Technologie.

Nutzung einer neuen Speicherhierarchie dank Intel® Optane™ Technik

Der persistente Intel Optane Speicher steht für eine hochdichte, Byte-adressierbare 3D-Speichertechnologie im DIMM-Format, die eine einzigartige Kombination aus großer Kapazität, niedriger Latenz, geringem Stromverbrauch und Datenpersistenz bietet. Die persistenten Speichermodule fügen eine neue Schicht in die Speicherhierarchie eines HPC-Systems ein und bieten DIMM-ähnliche Geschwindigkeiten für den Byte-adressierbaren Datenzugriff mit Terabytes an Kapazität auf dem Speicherbus. Die meisten skalierbaren Intel Xeon Prozessoren der 2. Generation unterstützen persistente Intel Optane Speichermodule. Ein Knoten mit den Intel Xeon 8260M Prozessoren kann bis zu 3 TB persistenten Intel Optane Speicher unterstützen.

Persistenter Intel Optane Speicher kann in verschiedenen Modi betrieben werden (Arbeitsspeicher, App-Direct und Speicherung über App-Direct). Im Arbeitsspeichermodus verwendet die CPU den persistenten Intel Optane Speicher als Systemspeicher und nutzt den Systemspeicher (DIMMs) als Cache. Im App-Direct-Modus wird die Software auf beide Speichertypen aufmerksam gemacht und so konfiguriert, dass sie das Lesen und Schreiben von Daten auf der Grundlage der Eignung für DRAM oder den persistenten Intel Optane Speicher steuert. Dies bietet den Trainingsprozessen von Preferred Networks eine größere Kapazität und eine höhere Leistung.

„Im Arbeitsspeichermodus würde sich die gesamte Systemspeicherdomäne im persistenten Speicher befinden“, fügte Xu hinzu, „was bedeutet, dass wir nicht die gesamten drei Terabyte optimal nutzen könnten. Darüber hinaus sind die Muster für den Zugriff auf Deep Learning-Daten sehr zufällig. DRAM als Cache funktioniert bei diesen Zugriffen nicht effektiv. Wir brauchten die direkte Kontrolle über den persistenten Speicher, also entwickelten wir benutzerdefinierten Code, um ihn im App-Direct-Modus zu steuern.

Zusätzlich zum eigenen Code entwickelte Preferred Networks eine benutzerdefinierte Bibliothek, um die Vorteile der großen Kapazität, der niedrigen Latenzzeit und der Byte-adressierbaren Merkmale des persistenten Intel Optane Speichers zu nutzen. Um die Leistung für die gesamte Datenpipeline und den kundenspezifischen Beschleuniger zu optimieren, schlossen sie eine Staging-Phase zur Vorverarbeitung der JPEG-Bilder ein, indem sie in Rohpixeldaten umgewandelt und der Datensatz in den persistenten Intel® Optane™ Speicher geladen wurde.

Ergebnis

Das Unternehmen stellt seinen Beschleuniger her und bringt MN-3 zusammen mit dem Beschleuniger auf den Markt. MN-3 ist ein Cluster mit zunächst bis zu 48 Knoten. Das Unternehmen wird MN-3 zu einem Exascale-Supercomputer mit halber Präzision ausbauen. Die Intel Xeon 8260M Prozessoren ermöglichen dem MN-3, die Vorverarbeitungsleistung zur Bereitstellung des Datensatzes zu optimieren und die Nachverarbeitungsphase zur Verwaltung der Ergebnisse effektiv abzuwickeln.

Ein frühes Benchmarking der Datenpipeline mit dem Beschleuniger MN-Core von Preferred Networks, Intel Xeon 8260M Prozessoren und dem persistenten Intel Optane Speicher liefert einen bis zu 3,5-mal schnelleren Datendurchsatz im Vergleich zum System mit NVMe SSDs.4 Das System ist nicht nur schnell, sondern auch sehr energieeffizient. MN-3 rangiert auf Platz 1 der Green-500-Liste vom Juni 2020.5 Preferred Networks geht davon aus, dass das System innerhalb von fünf Jahren in puncto Deep Learning-Training auf das 20-Fache der Exascale-Leistung anwachsen wird.

Zusammenfassung

Preferred Networks setzt zur Unterstützung seiner Kunden HPC-Cluster für das Deep Learning-Training ein. PFN benötigte mehr Leistung, also entwickelte das Unternehmen seinen eigenen Deep-Learning-Beschleuniger und die erste Stufe eines neuen Clusters um ihn herum mit dem Namen MN-3. Herkömmliche SSDs konnten die Anforderungen der neuen Architektur an den E/A-Durchsatz nicht erfüllen. Daher setzte Preferred Networks Intel Xeon 8260M Prozessoren und persistenten Intel Optane Speicher ein, um einen ausgewogenen Knoten mit schnellem Zugriff und hoher Kapazität für Trainingsdaten zu ermöglichen. Das neue Systemdesign soll laut Preferred Networks eine bis zu 3,5-mal schnellere Leistung erbringen.

Lösungskomponenten

  • Trainingscluster mit 48 Knoten für Deep Learning mit benutzerdefiniertem Beschleuniger
  • Zwei Intel Xeon 8260M Prozessoren mit 24 Kernen pro Knoten
  • 3 TB an persistentem Intel Optane Speicher pro Knoten (insgesamt 153,6 PB)

Supermicro im Rampenlicht

Die SuperServer-Hardware von Supermicro wurde bei Preferred Networks eingesetzt. Die SuperServer-Plattform bietet ein hohes Maß an Leistung und Effizienz und unterstützt skalierbare Intel Xeon Prozessoren der 2. Generation.

Supermicro (Nasdaq: SMCI), ein führender Innovator im Bereich hochleistungsfähiger, hocheffizienter Servertechnologie, ist ein weltweit führender Anbieter von fortschrittlichen Server-Bausteinlösungen für Rechenzentren, Cloud-Computing, Unternehmens-IT, Hadoop/Big Data, HPC und eingebettete Systeme.

PDF herunterladen ›

Informationen über zugehörige Produkte und Lösungen

Produkt- und Leistungsinformationen

3Benchmark-Informationen wurden Preferred Networks bereitgestellt.
4Benchmark-Informationen wurden von Preferred Networks bereitgestellt, der Durchsatz wurde mit den folgenden Schritten gemessen: Lesen von Daten (aus dem ndarray-Format), ImageNet-Erweiterung (Zuschneiden, Größe ändern, Spiegeln) und Speicherlayout für den Beschleuniger von Preferred Networks (z. B. Datenkopie).