Skalierbare Intel® Xeon® Prozessoren und Intel® Advanced Matrix Extensions
Deep-Learning-Workloads, wie solche, die auf generative KI, große Sprachmodelle (Large Language Models, LLMs) und Computervision beruhen, können unglaublich rechenintensiv sein und hohe Leistung sowie oft zusätzliche spezialisierte Hardware erfordern, um die erfolgreiche KI-Bereitstellung zu gewährleisten. Die damit verbundenen Kosten können schnell ansteigen, und das Hinzufügen separater Hardwarelösungen kann unnötige Komplexitätsebenen und Kompatibilitätsprobleme verursachen.
Um Ihre Deep-Learning-Workloads effizienter und kosteneffektiver zu machen und das Trainieren und Bereitstellen zu vereinfachen, bieten Intel® AMX auf skalierbaren Intel® Xeon® Prozessoren Beschleunigung für das Inferenzieren und Trainieren und minimieren gleichzeitig den Bedarf an spezieller Hardware.
Intel® AMX ist eine von zwei Intel® KI-Engines, die in skalierbaren Intel Xeon Prozessoren der 4. und 5. Generation sowie in Intel® Xeon® 6 Prozessoren mit P-cores integriert sind und die Ihnen helfen können, Ihre CPU optimal für KI-Training- und Inferenz-Workloads in großem Umfang einzusetzen. Zu den Vorteilen gehören verbesserte Effizienz, reduzierte Kosten für Inferenz, Training und Bereitstellung sowie niedrigere Gesamtbetriebskosten. Als integrierter Beschleuniger, der sich auf jedem CPU-Kern befindet und in der Nähe des Systemspeichers platziert wird, ist Intel® AMX oft weniger komplex anzuwenden als separate Beschleuniger, was zu einer schnelleren Wertsteigerung führt.
Es gibt viele Möglichkeiten, wie Unternehmen fortschrittliche KI-Workloads unterstützen können. Eine Grundlage auf Basis von skalierbaren Intel® Xeon® Prozessoren, die leistungsstarke, integrierte KI-Beschleuniger ermöglicht, kann Ihre Schulungs- und Inferenzierungsziele erreichen und gleichzeitig die Systemkomplexität sowie die Bereitstellungs- und Betriebskosten senken, was den geschäftlichen Nutzen erhöht.
Wie Intel® AMX funktioniert
Intel® AMX ist ein dedizierter Hardwareblock auf dem skalierbaren Intel® Xeon® Prozessorkern, der dabei hilft, Deep-Learning-Schulungen und Inferenzierungs-Workloads, die auf Matrix-Mathematik beruhen, zu optimieren und zu beschleunigen.
Intel® AMX ermöglicht die Ausführung von KI-Workloads auf der CPU, anstatt sie auf einen separaten Beschleuniger auszulagern, was eine wesentliche Leistungssteigerung bietet.2 Seine Architektur unterstützt BF16 (Training/Inferenz) und int8 (Inferenz) Datentypen und umfasst zwei Hauptkomponenten:
- Tiles: Diese bestehen aus acht zweidimensionalen Registern, jeweils 1 Kilobyte groß, die große Datenblöcke speichern.
- Tile Matrix Multiplikation (TMUL): TMUL ist eine Beschleuniger-Engine, die an die Tiles angeschlossen ist und Matrix-Multiplizierungen für KI durchführt.
Zusammen ermöglichen diese Komponenten Intel® AMX, mehr Daten in jedem Kern zu speichern und größere Matrizen in einem einzigen Vorgang zu berechnen. Darüber hinaus ist Intel® AMX so konzipiert, dass es vollständig erweiterbar und skalierbar ist.
Vorteile von Intel® AMX für bessere Geschäftsergebnisse
Intel® AMX ermöglicht skalierbare Intel® Xeon® Prozessoren, die Leistung von Deep-Learning-Training und Inferenzierungs-Workloads zu steigern, indem Inferenz, der wichtigste Anwendungsfall für eine CPU in KI-Anwendungen, mit mehr Funktionen für das Schulen ausbalanciert wird.
Viele Kunden von Intel nutzen Intel® AMX, um ihren Unternehmen bessere Ergebnisse zu ermöglichen. Mit GenAI-Workloads als Schwerpunktanwendung können Intel® Xeon® 6 Prozessoren mit P-cores die doppelte GPT-J-6B-Leistung (bf16) im Vergleich zu skalierbaren Intel Xeon Prozessoren der 5. Generation bieten.3 Mit skalierbaren Intel® Xeon® Prozessoren der 5. Generation profitieren Kunden im Vergleich zu skalierbaren Intel® Xeon® Prozessoren der 3. Generation von bis zu 14-facher Verbesserung bei Training und Inferenz.4
Zu den wichtigsten Vorteilen von Intel® AMX gehören:
- Verbesserte Leistung
CPU-basierte Beschleunigung kann die Effizienz der Energie- und Ressourcenauslastung verbessern und somit bessere Leistung zum gleichen Preis bieten.
Beispielsweise weist der Intel® Xeon® Platinum 8592+ Prozessor (5. Generation) mit Intel® AMX BF16 im Vergleich zum skalierbaren Intel® Xeon® Prozessoren der 3. Generation mit FP32 bis zu 10,7-fache Inferenzleistung bei Echtzeit-Spracherkennung (RNN-T) und 7,9-fache Rechenleistung pro Watt auf.5 - Die Reduzierung der Gesamtbetriebskosten (Total Cost of Ownership, TCO)
Skalierbare Intel® Xeon® Prozessoren mit Intel® AMX ermöglichen eine Reihe von Effizienzsteigerungen, die dazu beitragen, Kosten zu reduzieren, Gesamtbetriebskosten zu senken und Nachhaltigkeitsziele zu erreichen.
Als integrierter Beschleuniger auf skalierbaren Intel® Xeon® Prozessoren, den Sie möglicherweise bereits besitzen, ermöglicht Intel® AMX Ihnen die Maximierung Ihrer bereits getätigten Investitionen und die Steigerung der Leistung Ihrer CPU, wobei die Kosten und die Komplexität beseitigt werden, die normalerweise mit dem Hinzufügen eines separaten Beschleunigers verbunden sind.
Skalierbare Intel® Xeon® Prozessoren mit Intel® AMX können auch eine kosteneffizientere Serverarchitektur im Vergleich zu anderen verfügbaren Optionen bieten, was sowohl Vorteile bei der Energieversorgung als auch bei der Verringerung der Emissionen bietet.
Im Vergleich zu Servern mit AMD Genoa 9654 lieferten Intel® Xeon® Platinum Prozessoren der 5. Generation mit Intel® AMX bis zu 2,69-mal so hohe Batch-Inferenz-Leistung bei der Verarbeitung natürlicher Sprache (BERT-Large) und 2,96-mal so hohe Rechenleistung pro Watt.6 - Reduzierte Entwicklungszeit
Um den Prozess der Entwicklung von Deep-Learning-Anwendungen zu vereinfachen, arbeiten wir eng mit der Open-Source-Community, einschließlich der TensorFlow- und PyTorch-Projekte, zusammen, um Frameworks für Intel® Hardware zu optimieren und unsere neuesten Optimierungen und Funktionen upzustreamen, damit sie für Entwickler sofort verfügbar sind. So können Sie die Leistungsvorteile von Intel® AMX mit einigen wenigen Code-Zeilen nutzen und die Gesamtentwicklungszeit reduzieren.
Wir stellen auch den Zugriff auf kostenlose Intel® Entwicklungstools, Bibliotheken und Ressourcen zur Verfügung.
Intel® AMX Deep-Learning-Anwendungsfälle
Intel® AMX kann in einer Vielzahl von Deep-Learning-Anwendungsfällen bereitgestellt werden, um eine erhebliche Leistungssteigerung zu erzielen, die zu einem größeren Nutzen für Endbenutzer und Unternehmen führt.
- Empfehlungssysteme: Verwenden Sie Intel® AMX als kosteneffektivere Lösung für KI-Empfehlungsmodelle, mit denen die Reaktionsfähigkeit von Produkt-, Inhalts- und Service-Empfehlungen für Anwendungsfälle wie E-Commerce, soziale Medien, Streaming-Unterhaltung und personalisiertes Banking verbessert werden kann. Beispielsweise verwenden Content-Anbieter oft Intel® AMX, um die Bereitstellung gezielter Film- oder Buchempfehlungen und Anzeigen zu beschleunigen oder ein Deep-Learning-basiertes Empfehlungssystem bereitzustellen, das Echtzeit-Signale des Benutzerverhaltens und Kontextfunktionen wie Zeit und Ort in nahezu Echtzeit berücksichtigt. Skalierbare Intel® Xeon® Prozessoren der 5. Generation bieten bis zu 8,7-mal so hohe Batch-Inferenzleistung bei Empfehlungssystemen (DLRM) und 6,2-mal so hohe Rechenleistung/Watt im Vergleich zu skalierbaren Intel® Xeon® Prozessoren der 3. Generation mit FP32.7
- Natural Language Processing (NLP): Beschleunigen Sie textbasierte Anwendungsfälle zur Unterstützung und Skalierung von NLP-Anwendungen, wie sie im Gesundheitswesen und in den Biowissenschaften verwendet werden, um Erkenntnisse aus klinischen Notizen zu extrahieren oder große Mengen medizinischer Daten zu verarbeiten, um Gesundheitsprobleme frühzeitig zu erkennen und die Betreuungsleistung zu verbessern. Bei Finanzdienstleistungen kann Intel® AMX verwendet werden, um die Reaktionsfähigkeit von Online-Chatbots zu verbessern, um Kunden dabei zu helfen, sich schneller mit den benötigten Informationen zu verbinden und gleichzeitig begrenztes Personal für komplexere Anfragen freizugeben.
Ähnlich wie bei den Kosteneinsparungen für Empfehlungssysteme kann Intel® AMX eine kosteneffektivere Lösung für NLP sein. Beispielsweise konnten mit Intel® AMX und skalierbaren Intel® Xeon® Prozessoren der 4. Generation bei der Bereitstellung des BERT-Large-KI-Modells für die Verarbeitung natürlicher Sprache im Vergleich zum AMD Genoa 9354 Einsparungen von bis zu 79 % erzielt werden.8 - Generative KI: Nutzen Sie Intel® AMX, um die Leistung von Deep-Learning-Training und Inferenz-Workloads für generative KI-Anwendungsfälle wie die Generierung von Inhalten einschließlich Bildern, Videos und Audio, Sprachübersetzung, Datenerweiterung und Zusammenfassung zu beschleunigen. Beispielsweise reduzierte eine Leistungsbewertung von Intel® Xeon® Platinum 8480+ Prozessoren mit Intel® AMX für BF16-Datentypen im Vergleich zu Intel® Xeon® Platinum 8380 Prozessoren für FP32-Datentypen die Zeit der Text-zu-Bild-Generierung für Stable Diffusion auf weniger als fünf Sekunden und die Feinabstimmung von Stable Diffusion-Modellen auf weniger als fünf Minuten.9
- Computervision: Reduzieren Sie die Zeit von der Video- und Bilderfassung bis hin zu Erkenntnissen und Maßnahmen, um außergewöhnliche Kundenerlebnisse zu bieten und Ihrem Unternehmen dabei zu helfen, die Effizienz zu verbessern und Betriebskosten zu senken. Beispielsweise kann Intel® AMX in Einzelhandelsgeschäften dazu beitragen, die Transaktionszeit für Kunden zu minimieren, indem es einen reibungslosen Bezahlvorgang mit Hilfe von Computervision ermöglicht und die Überwachung von Regalen nahezu in Echtzeit unterstützt, um Bestandsdaten zu verfolgen und Mitarbeiter sofort zu benachrichtigen, wenn ein Artikel nicht vorrätig ist. In der Fertigung kann eine beschleunigte Analyse der Videos von Computervision-Kameras an Roboterarmen mit automatisierten Fehlererkennungsfunktionen dazu beitragen, Zeit- und Kosteneinsparungen zu ermöglichen.
Weitere Beispiele dafür, wie Intel® Kunden Intel® AMX verwenden, um bessere Geschäftsergebnisse zu erzielen, finden Sie in unserer Kunden-Spotlight-Bibliothek.
Intel® AMX – Erste Schritte
Wir bieten eine Vielzahl von Entwicklungsressourcen an, die Sie dabei unterstützen, den integrierten Intel® AMX Beschleuniger in Ihren skalierbaren Intel® Xeon® Prozessoren zu nutzen.
Lesen Sie zunächst die Schritt-für-Schritt-Anweisungen zur Leistungssteigerung mit Intel® AMX in den folgenden Leitfäden:
- Kurzanleitung für Intel® KI-Optimierungen: Bietet Anweisungen zur Verbesserung der KI-Workload-Leistung mit Intel® Optimized KI-Libraries und Frameworks. Dieser Leitfaden enthält Schritt-für-Schritt-Anweisungen für TensorFlow, XGBoost, PyTorch und mehr.
- Tuning-Leitfaden zur Verbesserung der Deep-Learning-KI-Leistung: Enthält Empfehlungen für das Tuning von Prozessoren für Intel® optimierte KI-Toolkits, um die bestmögliche Leistung zu erzielen.
Weitere ausführlichere technische Informationen, Tutorials, Code-Beispiele und Testmodule finden Sie unter:
- Intel® AMX KI-Frameworks
- Intel® AMX KI-Referenzkits
- Intel® AMX Entwickler-Referenzhandbuch
- Intel® AMX Code-Beispiel
Sie können auf alle unsere Tuning-Leitfäden für skalierbare Intel® Xeon® Prozessoren in unserem Katalog für Entwickler-Software-Tools zugreifen.
Um Sie bei der Optimierung Ihrer KI-Entwicklung zu unterstützen, bieten wir unsere Intel® oneAPI Toolkits, Komponenten und Optimierungen an, darunter:
- Intel® oneAPI KI Analyse Toolkit
- Intel® oneAPI Math Kernel Library
- Intel® Extension for TensorFlow
- PyTorch-Optimierungen von Intel
Experimentieren Sie noch heute mit Intel® AMX
Neben unserem Referenzmaterial können Sie mit Intel® Hardware, Intel® AMX und anderen integrierten Beschleunigungsfunktionen mit Intel® Developer Cloud experimentieren.
Diese kostenlose Online-Plattform für Lernen, Prototyping, Testen und Ausführen von Workloads bietet auch Unterstützung für eine Reihe von Intel® Software-Entwicklungs-Toolkits, Tools und Bibliotheken.
Erweitern und verbessern Sie KI-Funktionen auf Ihrer CPU mit Intel® AMX
Während Ihr Unternehmen nach Lösungen sucht, mit denen die steigenden Rechenanforderungen zur Unterstützung von Deep-Learning-Training und Inferenzierungs-Workloads erfüllt werden können, kann Intel® AMX dazu beitragen, die Leistung mit der Intel® Hardware zu steigern, die Sie möglicherweise bereits besitzen, ohne die Kosten und die Komplexität mit zusätzlicher spezieller Hardware und in vergleichsweise kürzerer Entwicklungszeit, unter Verwendung von Intel® Optimierungen in beliebten Open-Source-Frameworks und Zugriff auf kostenlose Intel® Entwicklungstools und Ressourcen.