Bis zu 64 % bessere BERT-Leistung bei der Inferenz großer Prozessoren durch Auswahl von AWS M6i Instanzen mit skalierbaren Intel® Xeon® Prozessoren der 3. Generation

BERT-Groß:

  • Profitieren Sie von bis zu 64 % besserer BERT-Large-Leistung auf 64-vCPU-m6i.16xlarge-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation im Vergleich zu m5n.16xlarge-Instanzen.

  • Verarbeiten Sie bis zu 40 % höheren BERT-Large-Durchsatz auf 32-vCPU-m6i.8xlarge-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation im Vergleich zu m5n.8xlarge-Instanzen.

author-image

Von

M6i-Instanzen haben über verschiedene Instanzgrößen hinweg mehr Inferenzoperationen pro Sekunde als M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation durchgeführt

Unternehmen verwenden natürliche Inferenz-Workloads für maschinelles Lernen für eine Vielzahl von Geschäftsanwendungen, z. B. Chatbots, die von Kunden und anderen Benutzern eingegebenen Text analysieren. Diese Art von Arbeit stellt große Anforderungen an Rechenressourcen, was es sehr wichtig macht, leistungsstarke Cloud-Instanzen auszuwählen.

BERT ist ein nlP-Modell (Natural Language Processing) mit allgemeinem Zweck, das wir gewählt haben, um die Leistung von zwei Amazon Web Services (AWS) EC2 Cloud-Instanztypen zu messen. Wir haben zwei Größen von M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation getestet. Wir haben festgestellt, dass sowohl 32 vCPU- als auch 64 vCPU M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation ihre M5n-Pendants übertreffen. Basierend auf diesen Erkenntnissen können Unternehmen ihren Benutzern eine schnellere Erfahrung bieten, indem sie sich für M6i-Instanzen entscheiden.

M6i-Instanzen mit 64 vCPUs

Um die BERT-Large-Inferenzleistung der beiden AWS-Instanzreihen zu vergleichen, haben wir das TensorFlow-Framework verwendet. Wie Abbildung 1 zeigt, lieferte die 64-vCPU m6i.16xlarge Instanz, die von skalierbaren Intel Xeon Prozessoren der 3. Generation aktiviert wurde, einen 64 % höheren Durchsatz als die m5n.16xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation.

Abbildung 1. BERT-Large-Inferenzleistung durch eine m6i.16xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 3. Generation und durch eine m5n.16xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation erreicht. Die Tests verwendeten INT8-Präzision, Batchgröße 1 und Sequenzlänge von 384. Höher ist besser.

M6i-Instanzen mit 32 vCPUs

Wie Abbildung 2 zeigt, lieferte die 32-vCPU m6i.8xlarge Instanz, die von skalierbaren Intel® Xeon® Prozessoren der 3. Generation aktiviert wurde, einen 40 % höheren Durchsatz als die m5n.8xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation.

Abbildung 2. BERT-Large-Inferenzleistung, die von einer m6i.8xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 3. Generation und einer m5n.8xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation erreicht wird. Die Tests verwendeten INT8-Präzision, Batchgröße 1 und Sequenzlänge von 384. Höher ist besser.

Schlussfolgerung

Wir haben BERT-Large Natural Language Processing Inferenzleistung von zwei AWS-Instanzreihen getestet: M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation. Bei zwei verschiedenen Größen übertrumpften die M6i-Instanzen die M5n-Instanzen um bis zu 64 %. Um Ihren Kunden und anderen Benutzern ein schnelleres Erlebnis zu bieten, führen Sie Ihre NLP-Inferenz-Workloads auf Amazon M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation aus.

Weitere Informationen

Besuchen Sie https://aws.amazon.com/ec2/instance-types/m6i/, um zu beginnen, Ihre NLP-Inferenz-Workloads auf Amazon M6i-Instanzen mit Intel Xeon skalierbaren Prozessoren der 3. Generation auszuführen.

Einzel-VM-Tests von Intel am 30.11.2021. Alle VMs, die mit Ubuntu 20.04 LTS konfiguriert sind, 5.11.0-1022-aws, EBS-Speicher, GCC=8.4.0, Python=3.6.9, tensorflow=2.5.0, Docker=20.10.7, containerd=1.5.5, BERT-Modell, Batchgröße 1, Sequenzlänge 384, INT8-Präzision. Instanzdetails: m6i.8xlarge, 32vcpus, Intel® Xeon® Platinum 8375C CPU mit 2,90 GHz, 128 GB insgesamt DDR4-Speicher; m5n.8xlarge, 32vcpus, Intel® Xeon® Platinum 8259CL CPU mit 2,50 GHz, 128 GB insgesamt DDR4-Speicher; m6i.16xlarge, 64vcpus, Intel® Xeon® Platinum 8375C CPU mit 2,90 GHz, 256 GB insgesamt DDR4-Speicher; m5n.16xlarge, 64vcpus, Intel® Xeon® Platinum 8259CL CPU mit 2,50 GHz, 256 GB insgesamt DDR4-Speicher.

Der Inhalt dieser Seite ist eine Kombination aus menschlicher und computerbasierter Übersetzung des originalen, englischsprachigen Inhalts. Dieser Inhalt wird zum besseren Verständnis und nur zur allgemeinen Information bereitgestellt und sollte nicht als vollständig oder fehlerfrei betrachtet werden. Sollte eine Diskrepanz zwischen der englischsprachigen Version dieser Seite und der Übersetzung auftreten, gilt die englische Version. Englische Version dieser Seite anzeigen.