Leistung für HPC-Plattformen (High-Performance-Computing)1 2

Leistung für HPC-Plattformen (High-Performance-Computing)<sup>1</sup> <sup>2</sup> <sup></sup>

Leistung für HPC-Plattformen (High-Performance-Computing)1 2

Dank der neuesten Intel Plattform werden für Ihre individuellen Anforderungen keine dedizierten Systeme mit spezieller Hardware und Software benötigt. Zudem bietet der skalierbare Intel® Xeon® Prozessor der 2. Generation herausragende Leistung in vielen Bereichen: Rechenleistung, Fließkomma, Deep Learning, Speicherbandbreite, Plattformtechnologien, Dichte und Leistung von Anwendungen aus der ...Praxis.

Skalierbare Intel® Xeon® Prozessorreihe

Workload-optimierte Technik für anspruchsvolle Anwendungen und umsetzbare Erkenntnisse.

Weitere Infos

Maximale Prozessorleistung und Speicherbandbreite

Das Intel® Serversystem der Produktreihe S9200WK ist ein für bestimmte Zwecke vorgesehener, leistungsoptimierter Data-Center-Block, der sich ideal für Anwendungen im Bereich High-Performance-Computing (HPC) und künstliche Intelligenz eignet.

Weitere Infos

Bahnbrechende Leistung für große Herausforderungen in der Praxis

Intels HPC-Plattform (High-Performance-Computing) kombiniert Rechenleistung mit leistungsstarker Arbeits- und Datenspeicher-, Fabric- und Beschleunigungsfunktionalität für die Bewältigung Ihrer größten Herausforderungen – von KI und Datenanalyse bis hin zur Simulation und Modellierung.

Weitere Infos

Videos >

Produkt- und Leistungsinformationen

1

30-fache Verbesserung des Inferenzdurchsatzes auf Intel® Xeon® Platinum 9282 Prozessor mit Intel® Deep Learning Boost (Intel® DL Boost): getestet durch Intel am 26.02.2019. Plattform: Zweiprozessorsystem „Dragon Rock“ mit Intel® Xeon® Platinum 9282 Prozessor (56 Kerne pro Prozessor), HT aktiviert, Turbo aktiviert, insgesamt 768 GB Arbeitsspeicher (24 Steckplätze, je 32 GB, 2933 MHz), BIOS: SE5C620.86B.0D.01.0241.112020180249, Centos* 7 Kernel 3.10.0-957.5.1.el7.x86_64, Deep Learning Framework: Intel® Optimierungen für Caffe*, Version: https://github.com/intel/caffe d554cbf1, ICC 2019.2.187, MKL-DNN-Version: 0.17 (Commit-Hash: 830a10059a018cd2634d94195140cf2d8790a75a, Modell https://github.com/intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt, BS = 64, keine Datenebene – synthetische Daten: 3x224x224, 56 Instanzen / Zweiprozessorsystem, Datentyp: INT8; Vergleich mit Test durch Intel am 11. Juli 2017: Zweiprozessorsystem mit Intel® Xeon® Platinum 8180 Prozessor (2,50 GHz, 28 Kerne), HT deaktiviert, Turbo deaktiviert, Scaling-Governor festgelegt auf „Performance“ über intel_pstate-Treiber, 384 GB DDR4-2666-ECC-RAM. CentOS* Linux, Release 7.3.1611 (Core), Linux-Kernel 3.10.0-514.10.2.el7.x86_64. SSD: Intel® SSD der Produktreihe DC S3710 (800 GB, 2,5", 6-Gbit/s-SATA, 25-nm-Technik, MLC). Leistung gemessen mit: Umgebungsvariable: KMP_AFFINITY='granularity=fine, compact', OMP_NUM_THREADS=56, CPU-Taktfrequenz festgelegt mit: cpupower frequency-set -d 2,5G -u 3,8G -g performance. Caffe: (http://github.com/intel/caffe/), Revision f96b759f71b2281835f690af267158b82b150b5c. Inferenz gemessen mit „caffe time --forward_only“-Befehl, Training gemessen mit „caffe time“-Befehl. Für die „ConvNet“-Topologien wurde ein synthetischer Datenpool verwendet. Für andere Topologien wurden Daten im lokalen Datenspeicher gespeichert und vor dem Training im Systemspeicher zwischengespeichert. Topologie-Spezifikation von https://github.com/intel/caffe/tree/master/models/intel_optimized_models (ResNet-50). Intel® C++ Compiler, Version 17.0.2 20170213, Intel® Math Kernel Library (Intel® MKL) Small Libraries, Version 2018.0.20170425. Caffe ausgeführt mit „numactl -l“.

2

4-fache Leistung bei Skalierung (4 Knoten, 8 Knoten) basierend auf LINPACK: Vergleich zwischen Intel® Xeon® Platinum 9242 Prozessor der 2. Generation und AMD* EPYC* 7601.

Intel® Xeon® 9242 Prozessor: 
Intel® Referenzplattform mit 2 Intel® Xeon® 9242 Prozessoren (2,2 GHz, 48 Kerne), 16 x 16 GB DDR4-2933, 1 SSD, Cluster-Dateisystem: 2.12.0-1 (Server), 2.11.0-14.1 (Client), BIOS: PLYXCRB1.86B.0572.D02.1901180818, Mikrocode: 0x4000017, CentOS* 7.6, Kernel: 3.10.0-957.5.1.el7.x86_64, OFED-Stack: OFED OPA 10.8 auf RH7.5 mit Lustre* v2.10.4, HBA: 1-Port-PCIe*-x16-Adapter für Intel® Omni-Path-Architektur (Intel® OPA) – 100 Gbit/s, Switch: (Intel® OPA-)Edge-Switch der Produktreihe 100 mit 48 Ports, HPL 2.1, Intel Compiler 2019u1, Intel® Math Kernel Library (Intel® MKL) 2019, Intel MPI 2019u1, HT = aktiviert, Turbo = deaktiviert, 2 Threads pro Kern, 4 Knoten = 20.408,00, 8 Knoten =39921 GF/s, höher ist besser, Test durch Intel am 03.03.2019.

AMD EPYC 7601
: Supermicro AS-1023US-TR4, 2 x AMD EPYC 7601 (2,2 GHz, 32 Kerne), 16 x 16 GB DDR4-2666, 1 SSD, BIOS-Version: 1.1b (20.08.2018), Mikrocode-Version: 0x8001227, Oracle* Linux Server Release 7.5 (3.10.0-862.14.4.el7.crt1.x86_64), Cluster-Dateisystem: Panasas (124 TB Datenspeicher), Firmware-Version 5.5.0.b-1067797.15 EDR – basierend auf Intel Enterprise Edition for Lustre* (IEEL), Mellanox MT27700 (EDR, 100 Gbit/s), Mellanox EDR-IB-Switch mit 36 Ports, OFED MLNX mlnx-4.3-3.0.2.0, HPL 2.2, Intel Compiler 2018u3, AMD BLIS v0.4.0, Intel MPI 2018u3, SMT = aktiviert, Turbo = aktiviert, 2 Threads pro Kern, 4 Knoten =4739,96, 8 Knoten = 9406,07 GF/s, höher ist besser, Test durch Intel am 23.09.18.