M6i-Instanzen haben über verschiedene Instanzgrößen hinweg mehr Inferenzoperationen pro Sekunde als M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation durchgeführt
Unternehmen verwenden natürliche Inferenz-Workloads für maschinelles Lernen für eine Vielzahl von Geschäftsanwendungen, z. B. Chatbots, die von Kunden und anderen Benutzern eingegebenen Text analysieren. Diese Art von Arbeit stellt große Anforderungen an Rechenressourcen, was es sehr wichtig macht, leistungsstarke Cloud-Instanzen auszuwählen.
BERT ist ein nlP-Modell (Natural Language Processing) mit allgemeinem Zweck, das wir gewählt haben, um die Leistung von zwei Amazon Web Services (AWS) EC2 Cloud-Instanztypen zu messen. Wir haben zwei Größen von M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation getestet. Wir haben festgestellt, dass sowohl 32 vCPU- als auch 64 vCPU M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation ihre M5n-Pendants übertreffen. Basierend auf diesen Erkenntnissen können Unternehmen ihren Benutzern eine schnellere Erfahrung bieten, indem sie sich für M6i-Instanzen entscheiden.
M6i-Instanzen mit 64 vCPUs
Um die BERT-Large-Inferenzleistung der beiden AWS-Instanzreihen zu vergleichen, haben wir das TensorFlow-Framework verwendet. Wie Abbildung 1 zeigt, lieferte die 64-vCPU m6i.16xlarge Instanz, die von skalierbaren Intel Xeon Prozessoren der 3. Generation aktiviert wurde, einen 64 % höheren Durchsatz als die m5n.16xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation.
M6i-Instanzen mit 32 vCPUs
Wie Abbildung 2 zeigt, lieferte die 32-vCPU m6i.8xlarge Instanz, die von skalierbaren Intel® Xeon® Prozessoren der 3. Generation aktiviert wurde, einen 40 % höheren Durchsatz als die m5n.8xlarge Instanz mit skalierbaren Intel Xeon Prozessoren der 2. Generation.
Schlussfolgerung
Wir haben BERT-Large Natural Language Processing Inferenzleistung von zwei AWS-Instanzreihen getestet: M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation und M5n-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation. Bei zwei verschiedenen Größen übertrumpften die M6i-Instanzen die M5n-Instanzen um bis zu 64 %. Um Ihren Kunden und anderen Benutzern ein schnelleres Erlebnis zu bieten, führen Sie Ihre NLP-Inferenz-Workloads auf Amazon M6i-Instanzen mit skalierbaren Intel Xeon Prozessoren der 3. Generation aus.
Weitere Informationen
Besuchen Sie https://aws.amazon.com/ec2/instance-types/m6i/, um zu beginnen, Ihre NLP-Inferenz-Workloads auf Amazon M6i-Instanzen mit Intel Xeon skalierbaren Prozessoren der 3. Generation auszuführen.
Einzel-VM-Tests von Intel am 30.11.2021. Alle VMs, die mit Ubuntu 20.04 LTS konfiguriert sind, 5.11.0-1022-aws, EBS-Speicher, GCC=8.4.0, Python=3.6.9, tensorflow=2.5.0, Docker=20.10.7, containerd=1.5.5, BERT-Modell, Batchgröße 1, Sequenzlänge 384, INT8-Präzision. Instanzdetails: m6i.8xlarge, 32vcpus, Intel® Xeon® Platinum 8375C CPU mit 2,90 GHz, 128 GB insgesamt DDR4-Speicher; m5n.8xlarge, 32vcpus, Intel® Xeon® Platinum 8259CL CPU mit 2,50 GHz, 128 GB insgesamt DDR4-Speicher; m6i.16xlarge, 64vcpus, Intel® Xeon® Platinum 8375C CPU mit 2,90 GHz, 256 GB insgesamt DDR4-Speicher; m5n.16xlarge, 64vcpus, Intel® Xeon® Platinum 8259CL CPU mit 2,50 GHz, 256 GB insgesamt DDR4-Speicher.