BERT-Large-Inferenz auf AWS M6i im Vergleich zu M6g

BERT-Large:

Erhalten Sie die bis zu 4,96-fache BERT-Large-Inferenzarbeit (INT8-Präzision) mit 32-vCPU-m6i.8xlarge-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation im Vergleich zu FP32-Präzision mit m6g.8xlarge-Instanzen.

Erhalten Sie die bis zu 3,07-fache BERT-Large-Inferenzarbeit (INT8-Präzision) mit 64-vCPU-m6i.16xlarge-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation im Vergleich zu FP32-Präzision mit m6g.16xlarge-Instanzen.

PDF

M6i-Instanzen leisteten mehr Inferenzarbeit als M6g-Instanzen mit AWS Graviton2-Prozessoren.

Chatbots und andere Geschäftsanwendungen basieren auf Inferenzworkloads für maschinelles Lernen in natürlicher Sprache. Da diese Workloads von Kunden und anderen Benutzern eingegebenen Text analysieren, können sie hohe Anforderungen an die Rechenressourcen stellen. Daher ist es wichtig, Cloud-Instanzen auszuwählen, die eine hohe Leistung bieten.

BERT-Large ist ein Allzweck-NLP-Modell (Natural Language Processing), das wir zur Messung der Leistung von zwei Amazon Web Services (AWS) EC2-Cloud-Instanztypen gewählt haben. Wir haben zwei Größen von M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M6g-Instanzen mit AWS Graviton2-Prozessoren getestet. Wir stellten fest, dass sowohl die 32-vCPU- als auch die 64-vCPU-M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation ihre M6g-Pendants übertrafen. Unsere Ergebnisse zeigen, dass Unternehmen ihren Benutzern ein schnelleres Erlebnis bieten können, wenn sie sich für M6i-Instanzen entscheiden. Obwohl die VMs der M6i-Reihe zum Zeitpunkt der Veröffentlichung 24,6 % mehr kosteten als die VMs der M6g-Reihe, bieten die M6i-Instanzen – mit einer bis zu 4,96-fachen Leistung – ein deutlich besseres Preis-Leistungs-Verhältnis.

M6i-Instanzen mit 32 vCPUs

Um die BERT-Large-Inferenzleistung der beiden AWS-Instanzreihen zu vergleichen, haben wir das TensorFlow-Framework verwendet. Wir haben zwei Genauigkeitsstufen getestet: FP32, die von beiden VM-Reihen unterstützt wird, und INT8, die bei den von uns verwendeten Modellen nur von der M6i-Reihe unterstützt wird.^1,2 Wie Abbildung 1 zeigt, lieferten die 32-vCPU-m6i.8xlarge-Instanzen mit INT8-Präzision die 4,96-fache Leistung der m6g.8xlarge-Instanzen mit FP32-Präzision.

Abbildung 1: BERT-Large-Inferenzleistung, die von einem m6i.8xlarge-Instanz-Cluster mit skalierbaren Intel Xeon Prozessoren der 3. Generation und von einem m6g.8xlarge-Instanz-Cluster mit AWS Graviton2-Prozessoren erreicht wird. Höher ist besser.

M6i-Instanzen mit 64 vCPUs

Wie Abbildung 2 zeigt, lieferten die 64-vCPU-m6i.16xlarge-Instanzen mit skalierbaren Intel® Xeon® Prozessoren der 3. Generation mit INT8-Präzision die 3,07-fache Leistung der m6g.16xlarge-Instanzen mit AWS Graviton2-Prozessoren mit FP32-Präzision. Hinweis: Das BERT-Large-Modell, das wir für AWS Graviton2-Prozessoren verwendet haben, unterstützt INT8 auf TensorFlow nicht.

Abbildung 2: BERT-Large-Inferenzleistung, die von einem m6i.16xlarge-Instanz-Cluster mit skalierbaren Intel Xeon Prozessoren der 3. Generation und von einem m6g.16xlarge-Instanz-Cluster mit AWS Graviton2-Prozessoren erreicht wird. Höher ist besser.

Fazit

Wir haben die BERT-Large-NLP-Inferenzleistung von zwei AWS-Instanzreihen getestet: M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M6g-Instanzen mit AWS Graviton2-Prozessoren. Bei zwei unterschiedlichen Größen übertrafen die M6i-Instanzen die M6g-Instanzen und erreichten eine bis zu 4,96-fache Inferenzarbeit. Um Ihren Kunden und anderen Benutzern ein schnelleres Erlebnis zu bieten, führen Sie Ihre NLP-Inferenz-Workloads auf AWS M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation aus.

Weitere Informationen

Um mit der Ausführung Ihrer NLP-Inferenz-Workloads auf AWS M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation zu beginnen, besuchen Sie https://aws.amazon.com/ec2/instance-types/m6i/.

Einzelne VM-Tests von Intel am 10.11.2021 und 01.12.2021. Alle VMs konfiguriert mit Ubuntu 20.04 LTS, 5.11.0-1022-aws, EBS Datenspeicher, GCC=8.4.0, Python=3.6.9, TensorFlow=2.5.0, Docker=20.10.7, containerd=1.5.5, BERT-Modell, Batchgröße 1, Sequenzlänge 384, FP32- und INT8-Präzision. Instanzdetails: m6i.8xlarge: 32 vCPUs, Intel® Xeon® Platinum 8375C CPU bei 2,90 GHz, Gesamtarbeitsspeicher: 128 GB DDR4; m6g.8xlarge: 32 vCPUs, ARM Neovers N1, Arm v8.2 bei 2,5 GHz, Gesamtarbeitsspeicher: 128 GB DDR4; m6i.16xlarge: 64 vCPUs, Intel® Xeon® Platinum 8375C CPU bei 2,90 GHz, Gesamtarbeitsspeicher: 256 GB DDR4; m6g.16xlarge: 64 vCPUs, ARM Neovers N1, Arm v8.2 bei 2,5 GHz, Gesamtarbeitsspeicher: 256 GB DDR4.

Wählen Sie Ihre Sprache aus

Suche auf Intel.com nutzen

Direktlinks

Kürzlich durchgeführte Suchen

Erweiterte Suche

Nur darin suchen