Mit Intel® Technik steigert UCloud die Paketverarbeitungskapazität um ein 5-faches1

Das Wichtigste im Überblick

  • Gaming, E-Commerce und Einzelhandel benötigen eine enorme Menge an Übertragungskapazität von hoher Frequenz für kleine Pakete.

  • Cloud-Serviceanbieter (CSPs), die diesen Bedarf erfüllen können, können von zahlreichen kommerziellen Möglichkeiten in diesem Sektor profitieren.

  • UCloud konnte die Paketverarbeitungskapazität ihrer Net-Enhanced UHost Plattform mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation, Intel® SSDs und 25 GbE Intel® Ethernet um ein 5-faches 1 beschleunigen.

author-image

Von

Die Bereitstellung von Cloud-Diensten für Branchen wie Gaming, E-Commerce und den Einzelhandel kann durchaus komplex sein. Diese Arten von Unternehmen erfordern in der Regel eine enorme Menge an Übertragungskapazität von hoher Frequenz für kleine Pakete, um die Erwartungen der eigenen Kunden zu erfüllen. Diese besondere Nachfrage in verbraucherorientierten Unternehmen zu erfüllen, kann für Unternehmen schwierig sein und eine Belastung für die Netzwerk-I/O bedeuten.

UCloud, eines der führenden Cloud-Computing-Unternehmen in China, bietet einer Reihe von Verbraucherdienstunternehmen Cloud-Services an, mit denen die Infrastruktur, Plattform, künstliche Intelligenz und Big-Data-Plattformen bereitgestellt werden. Das Unternehmen wollte seine Paketverarbeitungskapazität im Rahmen der Veröffentlichung seiner neuen Net-Enhanced UHost-Lösung verbessern, um seinem Kundenstamm ein schnelleres, wettbewerbsfähigeres Produkt zu bieten.

Wir haben die skalierbaren Intel® Xeon® Prozessoren der nächsten Generation gewählt, da sie uns mit hoher Taktfrequenz und hoher Rechenleistung versorgen können, sodass wir die Entwicklung innovativer Lösungen an dem Bedarf unserer Kunden orientieren können. Unser neuer Net-Enhanced UHost kann die hohen Anforderungen von Kunden in der E-Commerce- und Gaming-Branche effektiv lösen.

Durch den Einsatz von skalierbaren Intel® Xeon® Prozessoren der 2. Generation für ihre Net-Enhanced UHost-Lösung konnte UCloud die Lösung mit einer Paketverarbeitungskapazität von bis zu 5 Millionen Paketen pro Sekunde (pps) auf den Markt bringen, womit sie um ein Fünffaches schneller ist als die vorherige Generation.1 Außerdem hat UCloud mit Intel® SSDs mit bis zu 24.000 IOPS und 25 GbE Ethernet seine Infrastruktur aktualisiert, wodurch UCloud in der Lage ist, die Stoßzeiten im Netzwerkverkehr zu bewältigen.

Mehr über die skalierbaren Intel® Xeon® Prozessoren der 2. Generation

Die neue 2. Generation der skalierbaren Intel® Xeon® Prozessoren bietet die Grundlage für eine leistungsstarke datenorientierte Lösung, die in Bezug auf Flexibilität und Skalierbarkeit einen Evolutionssprung bestreitet. Dieser Prozessor ist eine echte Revolution: Er definiert Plattformkonvergenz völlig neu und bietet modernste Funktionen in den Bereichen Datenverarbeitung, Speicher, Arbeitsspeicher, Netzwerk und Sicherheit. Unternehmen und die Anbieter von Cloud- und Kommunikationsdiensten können nun ihre ehrgeizigsten digitalen Initiativen vorantreiben und dabei auf eine umfassende und vielseitige Plattform zurückgreifen.

  • Eine bis zu 30-fache Verbesserung der Inferenzleistung bei Inbetriebnahme mit Intel® Xeon® Platinum Prozessor 9282 (56 Kerne) mit Intel® Deep Learning Boost (Intel® DL Boost) für ResNet-50 (Bildklassifizierungs-Workload) mit Intel® Optimization for Caffe* im Vergleich zu Intel® Xeon® Platinum Prozessor 81802
  • Bis zu 2-mal mehr Arbeitsspeicherkapazität und Support von bis zu 36 TB auf einem 8-Prozessorsockelsystem mit persistentem Intel® Optane™ DC Speicher3
  • Bis zu durchschnittlich doppeltem Zuwachs im Generationenvergleich auf 2-Sockelservern mit den neuen Intel® Xeon® Platinum Prozessoren 92004
  • Bis zu durchschnittlich 1,33-fachem Zuwachs im Generationenvergleich mit dem Intel® Xeon® Gold Prozessor5

Produkt- und Leistungsinformationen

1

Die Ergebnisse wurden von UCloud bereitgestellt und basieren auf deren internen Tests. Weitere Informationen erhalten Sie von UCloud.

2

30x Verbesserung des Inferenzdurchsatzes auf Intel® Xeon® Platin-Prozessor 9282 mit Intel® Deep Learning Boost (Intel® DL Boost): getestet von Intel am 26.02.2019. Plattform: Zweiprozessorsystem „Dragon Rock“ mit Intel® Xeon® Platinum Prozessor 9282 (56 Kerne pro Prozessor), HT aktiviert, Turbo aktiviert, insgesamt 768 GB Arbeitsspeicher (24 Steckplätze, je 32 GB, 2933 MHz), BIOS: SE5C620.86B.0D.01.0241.112020180249, CentOS* 7, Kernel 3.10.0-957.5.1.el7.x86_64, Deep-Learning-Framework: Intel® Optimierungen für Caffe*, Version: https://github.com/intel/caffe d554cbf1, ICC 2019.2.187, MKL-DNN-Version: v0.17 (Commit-Hash: 830a10059a018cd2634d94195140cf2d8790a75a), Modell: https://github.com/intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt, BS=64, keine Datenebene – synthetische Daten: 3x224x224, 56 Instanzen/Zweiprozessorsystem, Datentyp: INT8; Vergleich mit Test durch Intel am 11. Juli 2017: Zweiprozessorsystem mit Intel® Xeon® Platinum Prozessor 8180 (2,50 GHz, 28 Kerne), HT deaktiviert, Turbo deaktiviert, Scaling-Governor festgelegt auf „Performance“ über intel_pstate-Treiber, 384 GB DDR4-2666-ECC-RAM. CentOS* Linux Release 7.3.1611 (Core), Linux* Kernel 3.10.0-514.10.2.el7.x86_64. SSD: Intel® SSD der Produktreihe DC S3710 (800 GB, 2,5", 6-Gbit/s-SATA, 25-nm-Technik, MLC). Leistung gemessen mit: Umgebungsvariablen: KMP_AFFINITY='granularity=fine, compact‘, OMP_NUM_THREADS=56, CPUFreq festgelegt mit: cpupower frequency-set -d 2,5G -u 3,8G -g Performance. Caffe: (http://github.com/intel/caffe/), Revision f96b759f71b2281835f690af267158b82b150b5c. Inferenz gemessen mit „caffe time --forward_only“-Befehl, Training gemessen mit „caffe time“-Befehl. Für die „ConvNet“-Topologien wurde ein synthetischer Datenpool verwendet. Für andere Topologien wurden Daten im lokalen Datenspeicher gespeichert und vor dem Training im Systemspeicher zwischengespeichert. Topologie-Spezifikation von https://github.com/intel/caffe/tree/master/models/intel_optimized_models (ResNet-50). Intel® C++ Compiler, Version 17.0.2 20170213, Intel® Math Kernel Library (Intel® MKL) Small Libraries, Version 2018.0.20170425. Caffe ausgeführt mit „numactl -l“.

3

2-fache Systemarbeitsspeicherkapazität, ermittelt durch 50 % der Arbeitsspeicherkanäle, die mit persistentem Intel® Optane™ DC Speicher bestückt sind, wobei Produkte verwendet werden, die die doppelte maximale Kapazität aller DRAM-Kapazitäten ergeben. Beispiel für ein 8S-System mit 96 Arbeitsspeichersteckplätzen: 36 TB Kapazität = 48 Steckplätze mit 512-GB-Modulen des persistenten Intel® Optane™ DC Speichers und 48 Steckplätze mit 256-GB-DRAM-DIMMs.

4

2-fache durchschnittliche Leistungssteigerung gegenüber der vorigen Generation: Bei Zweiprozessorservern mit Intel® Xeon® Platinum Prozessor 9200 der 2. Generation. Geometrisches Mittel von kalkuliertem SPECrate2017_int_base, kalkuliertem SPECrate2017_fp_base, STREAM-Triad, Intel®-Distribution für LINPACK*-Benchmark, serverseitiges Java*. Platinum 92xx im Vergleich zu Platinum 8180. Ausgangssystem: 1 Knoten, 2 x Intel® Xeon® Platinum Prozessor 8180 in Wolf-Pass-System mit 384 GB (12 x 32 GB 2666) Arbeitsspeicher gesamt, µCode 0x200004D unter RHEL7.6, 3.10.0-957.el7.x86_64, IC19u1, AVX512, HT generell aktiviert (aus bei Stream, LINPACK), Turbo generell aktiviert (aus bei Stream, LINPACK), Ergebnis: kalkulierter Integer-Durchsatz = 307, kalkulierter Fließkomma-Durchsatz = 251, STREAM/Triad = 204, LINPACK = 3238, serverseitiges Java=165724, Test durch Intel am 29.1.2019. Neue Konfiguration: 1 Knoten, 2 x Intel® Xeon® Platinum Prozessor 9282 in Walker-Pass-System mit 768 GB (24 x 32 GB 2933) Arbeitsspeicher gesamt, µCode 0x400000A unter RHEL7.6, 3.10.0-957.el7.x86_64, IC19u1, AVX512, HT generell aktiviert (aus bei Stream, LINPACK), Turbo generell aktiviert (aus bei Stream, LINPACK), Ergebnis: kalkulierter Integer-Durchsatz = 635, kalkulierter Fließkomma-Durchsatz = 526, STREAM/Triad=407, LINPACK=6411, serverseitiges Java=332913, Test durch Intel am 16.2.2019.

5

Bis zu 33 % durchschnittlicher Leistungsgewinn gegenüber der vorigen Generation (1,33-fach) bei Standardmodellen der Intel® Xeon® Gold Prozessoren: geometrisches Mittel von angenommenem SPECrate2017_int_base, angenommenem SPECrate2017_fp_base, STREAM-Triad, Intel® Distribution für LINPACK* Benchmark, serverseitiges Java*. Gold 5218 im Vergleich zu Gold 5118. Ausgangssystem: Einzelknoten, 2 x Intel® Xeon® Gold Prozessor 5118 in Wolf-Pass-System mit insgesamt 384 GB Arbeitsspeicher (12 x 32 GB 2666 (2400)), µCode 0x200004D unter RHEL7.6, 3.10.0-957.el7.x86_64, IC18u2, AVX2, HT durchgängig aktiviert (aus bei Stream, Linpack), Turbo aktiviert, Ergebnis: geschätzter Integer-Durchsatz = 119, geschätzter Fließkomma-Durchsatz = 134, Stream/Triad = 148,6, Linpack = 822, serverseitiges Java = 67434, Test durch Intel am 12.11.2018. Neue Konfiguration: Einzelknoten, 2 x Intel® Xeon® Gold-Prozessor 5218 in Wolf-Pass-System mit insgesamt 384 GB Arbeitsspeicher (12 x 32 GB 2933 (2666)), µCode 0x4000013 unter RHEL7.6, 3.10.0-957.el7.x86_64, IC18u2, AVX2, HT durchgängig aktiviert (aus bei Stream, LINPACK), Turbo aktiviert, Ergebnis: geschätzter Integer-Durchsatz = 162, geschätzter Fließkomma-Durchsatz = 172, Stream/Triad = 185, Linpak = 1088, serverseitiges Java = 98333, Test durch Intel am 7.12.2018.