Alibaba Cloud beschleunigt KI-Anwendungen

Analytics Zoo und bfloat16 verbessern die Leistung von KI-Anwendungen auf Alibaba Cloud ECS-Instanzen der 7. Generation.

Auf einen Blick:

  • Alibaba Cloud ECS-Instanzen der siebten Generation mit hoher Frequenz verwenden die dritte Generation der X-Dragon Architecture und skalierbaren Intel® Xeon® Prozessoren der 3. Generation.

  • Skalierbare Intel Xeon Prozessoren der 3. Generation bieten branchenführende und Workload-optimierte Plattformen durch die Verwendung von verbessertem Intel® Deep Learning Boost (Intel® DL Boost), der eine integrierte künstliche Intelligenz (KI) Beschleunigungsfunktion ist. Verbesserte Intel DL Boost bietet die erste x86-Unterstützung für bfloat16 in der Branche, was die KI-Inferenz und Schulungsleistung verbessert.

author-image

Von

Kurzübersicht

Dieses Papier beschreibt die Verwendung von Analytics Zoo und Brain Floating Point 16-Bit (bfloat16) zur Verbesserung der Leistung von Anwendungen mit künstlicher Intelligenz (KI), die auf Alibaba Cloud Elastic Compute Service (ECS)-Instanzen der 7. Generation ausgeführt werden.

Alibaba Cloud ECS-Instanzen der siebten Generation werden mit skalierbaren Intel® Xeon® Prozessoren der 3. Generation betrieben und bieten bfloat16-Unterstützung.

Skalierbare Intel Xeon Prozessoren der 3. Generation können komplexe KI-Workloads verarbeiten. Durch die Verwendung von verbessertem Intel DL Boost können skalierbare Intel Xeon Prozessoren der 3. Generation bis zu 1,93-mal höhere KI-Schulungsleisten liefern,1 bis 1,87-fach der KI-Inferenzleistung für die Bildklassifizierung,2 bis zu 1,7-fache KI-Schulungsleistung zur natürlichen Sprachverarbeitung (NLP),3 und bis zu 1,9-fache KI-Inferenzleistung für NLP, verglichen mit den Prozessoren der vorherigen Generation.4 Viele KI-Training-Workloads aus Industriesektoren wie z. B. Gesundheitswesen, Finanzen und Einzelhandel können von der bfloat16-Unterstützung profitieren, die von diesen Prozessoren bereitgestellt wird.

Lesen Sie das Whitepaper – Beschleunigung von KI-Anwendungen auf Alibaba Cloud mit Analytics Zoo und Bfloat16.

Produkt- und Leistungsinformationen

1Bis zu 1,93-mal höhere KI-Schulungsleistung mit einem skalierbaren Intel Xeon Prozessor der 3. Generation, der Intel DL Boost mit BF16 gegenüber einem Prozessor der vorherigen Generation mit ResNet-50-Durchsatz für die Bildklassifizierung unterstützt. Neue Konfiguration: 1 Knoten, 4 x Intel Xeon Platinum 8380H Prozessor der 3. Generation (Vorproduktion 28 Kerne, 250 W) mit 384 GB Gesamtspeicher (24 x 16 GB, 3.200 GHz), 800 GB Intel SSD-Laufwerk, ResNet-50 v1.5, UCode 0x700001b, Intel Hyper-Threading-Technik (Intel HT-Technik) on, Intel Turbo Boost-Technik on und Ausführung von Ubuntu 20.04 LTS, Linux 5.4.0-26.28.29-generic. Durchsatz: https://github.com/Intel-tensorflow/tensorflow1 -b bf16/base, commit#828738642769358b388d8f615ded9c213f10c99a, Model Zoo: 2https://github.com/IntelAI/models2 -b v1.6.1, ImageNet dataset, oneDNN 1.4, BF16, BS=512, getestet durch Intel am 18.05.2020. Baseline : 1 Knoten, 4 x Intel Xeon Platinum 8280 Prozessor mit 768 GB Gesamtspeicher (24 x 32 GB, 2.933 GHz), 800 GB Intel SSD, UCode 0x4002f00, Intel HT-Technik on, Intel Turbo Boost-Technik on, mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, ResNet-50 v1.5. Durchsatz: https://github.com/Intel-tensorflow/tensorflow bf16/base, Commit#828738642760358b388d8f615d0c213f10c99a, Modell Zoo: https://github.com/intelai/models -b v1.6.1, ImageNet-Datensatz, oneDNN 1.4, FP32, BS=512, getestet von Intel am 18.05.2020.
2Bis zu 1,87-fach höhere KI-Inferenzleistung mit skalierbaren Intel Xeon Prozessoren der 3. Generation, die Intel DL Boost mit BF16 im Vergleich zu Prozessoren der vorherigen Generation mit FP32 auf ResNet-50-Durchsatz für die Bildklassifizierung unterstützen Neue Konfiguration: 1 Knoten, 4 x Intel Xeon Platinum 8380H Prozessor der 3. Generation (Vorproduktion, 28 Kerne, 250 W) mit 384 GB Gesamtspeicher (24 x 16 GB, 3.200 GHz), 800 GB Intel SSD, UCode 0x700001b, Intel Turbo Boost-Technik on, Intel Turbo Boost-Technik on mit Ubuntu 20.04 LTS, Linux 5.4.0-26.28.29-generisch, ResNet-60 v1.5. Durchsatz: https://github.com/Intel-tensorflow/tensorflow -b bf16/base, commit#828738642760358b388e8r615ded0c213f10c99a, Model Zoo: https://github.com/IntelAI/models-b v1.6.1, ImageNet-Datensatz, oneDNN 1.4, BF16, BS=56, 5 Instanzen, 28 cores/instance, getestet von Intel am 18.05.2020. Baseline : 1 Knoten, 4 x Intel Xeon Platinum 8280 Prozessoren mit 768 GB Gesamtspeicher (24 x 32 GB, 2.933 GHz), 800 GB Intel SSD, UCode 0x4002f00, Intel HT-Technik on, Intel Turbo Boost-Technik on, mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, ResNet-50 v1.5. Durchsatz: https://github.com/Intel-tensorflow/tensorflow -b bf16/base, Commit#828738642760358b388d8f615de0c213f10c99a, Model Zoo: https://github.com/IntelAI/models -b v1.6.1, ImageNet-Datensatz, oneDNN 1.5, FP32, BS=56, 4 Instanzen, 28 Kerne/Instanz, getestet von Intel am 18.05.2020.
3Bis zu 1,7-fach mehr KI-Schulungsleistung mit skalierbarem Intel Xeon Prozessor der 3. Generation, der Intel DL Boost mit BF16 gegenüber einem Prozessor der vorherigen Generation auf BERT-Durchsatz zur natürlichen Sprachverarbeitung unterstützt. Neue Konfiguration: 1 Knoten, 4 x Intel Xeon Platinum 8380H Prozessor der 3. Generation (Vorproduktion, 28 Kerne, 250 W) mit 384 GB Gesamtspeicher (24 x 16 GB, 3.200 GHz), 800 GB Intel SSD, UCode 0x700001b, Intel HT-Technik on, Intel Turbo Boost-Technik on mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, BERT-Large (QA). Durchsatz: https://github.com/Intel-tensorflow/tensorflow1 -b bf16/base, commit#828738642760358b388e8r615ded0c213f10c99a, Model Zoo: 2https://github.com/IntelAI/models2 -b v1.6.1, Squad 1.1 Datensatz, oneDNN 1.4, BF16, BS=12, getestet von Intel am 18.05.2020. Baseline : 1 Knoten, 4 x Intel Xeon Platinum 8280 Prozessoren mit 768 GB Gesamtspeicher (24 x 32 GB, 2.933 GHz), 800 GB Intel SSD, UCode 0x4002f00, Intel HT-Technik on, Intel Turbo Boost-Technik on, mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, BERT-Large (QA). Durchsatz: https://github.com/Intel-tensorflow/tensorflow -b bf16/base, Commit#828738642760358b388d8f615de0c213f10c99a, Modell Zoo: https://github.com/IntelAI/models-b v1.6.1, Squad 1.1 Datensatz, oneDNN 1.5,FP32, BS=12, getestet von Intel am 18.05.2020.
4Bis zu 1,9fache KI-Leistung mit einem skalierbaren Intel Xeon Prozessor der 3. Generation, der Intel DL Boost mit BF16 gegenüber einem Prozessor einer vorherigen Generation mit FP32 für BERT-Durchsatz zur natürlichen Sprachverarbeitung unterstützt. Neue Konfiguration: 1 Knoten, 4 x Intel Xeon Platinum 8380H Prozessor der 3. Generation (Vorproduktion, 28 Kerne, 250 W) mit 384 GB Gesamtspeicher (24 x 16 GB, 3.200 GHz), 800 GB Intel SSD, UCode 0x700001b, Intel HT-Technik on, Intel Turbo Boost-Technik on mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, BERT-Large (QA). Durchsatz:https://github.com/Intel-tensorflow/tensorflow -b bf16/base, commit#828738642760358b388e8r615ded0c213f10c99a, Model Zoo: https://github.com/IntelAI/models -b v1.6.1, Squad 1.1 dataset, oneDNN 1.4, BF16, BS=32, 4 instances, 28 cores/instance, tested by Intel on 5/18/2020. Baseline: 1 Knoten, 4 x Intel Xeon Platinum 8280 Prozessoren mit 768 GB Gesamtspeicher (24 x 32 GB, 2.933 GHz), 800 GB Intel SSD, UCode 0x4002f00, Intel HT-Technik on, Intel Turbo Boost-Technik on, mit Ubuntu 20.04 LTS, Linux 5.4.0-26,28,29-generisch, BERTLarge (QA). Durchsatz: https://github.com/Intel-tensorflow/tensorflow -b bf16/base, commit#828738642760358b388d8f615ded0c213f10c99a, Model Zoo: https://github.com/IntelAI/models -b v1.6.1, Squad 1.1 Datensatz, oneDNN 1.5, FP32, BS=32, 4 Instanzen, 28 Kerne/Instanz, getestet von Intel am 18.05.2020.