Kingsoft Cloud: Aufgerüstete Cloud für KI-Entwickler

Kingsoft Cloud setzte skalierbare Intel® Xeon® Prozessoren ein, um Entwicklern zu helfen, ihre F&E-Effizienz in puncto KI zu steigern.

Auf einen Blick:

  • Als globaler Anbieter von Premium-Cloud-Diensten ist Kingsoft Cloud bestrebt, eine überlegene Infrastruktur als Service bereitzustellen, um den Benutzern einen Erstanbietervorteil bei Sprach-, Bild- und Videoanwendungen und vielen anderen KI-Szenarien zu verschaffen.

  • Um Entwicklern zu helfen, ihre F&E-Effizienz in puncto KI zu steigern, setzte Kingsoft Cloud skalierbare Intel® Xeon® Prozessoren und andere fortschrittliche Hardwareprodukte in seinen Cloud-Instanzen ein und führte Optimierungen der KI-Frameworks ein, darunter Intel® Optimierungen für TensorFlow* und Intel® Optimierungen für Caffe*.

author-image

Von

Der Einsatz von Cloud-Diensten zur Beschleunigung der Forschung und Entwicklung (F&E) von Anwendungen der künstlichen Intelligenz (KI) ist für viele KI-Entwicklungsteams zur Faustregel geworden. Als globaler Anbieter von erstklassigen Cloud-Diensten ist Kingsoft Cloud bestrebt, eine überlegene Infrastructure as a Service (IaaS) über eine Reihe von hochleistungsfähigen Cloud-Servern wie Kingsoft Elastic Compute und physische Cloud-Hosts wie Elastic Physical Compute bereitzustellen, um Benutzern einen Erstanbietervorteil bei Sprach-, Bild-, Video- und vielen anderen KI-Anwendungsszenarien zu verschaffen.

Um Entwicklern zu helfen, ihre F&E-Effizienz in puncto KI zu steigern, setzte Kingsoft Cloud zusammen mit seinem strategischen Partner Intel skalierbare Intel® Xeon® Prozessoren und andere fortschrittliche Hardwareprodukte in seinen Cloud-Instanzen ein und führte Optimierungen der KI-Frameworks durch, darunter Intel® Optimierungen für TensorFlow und Intel® Optimierungen für Caffe. Diese Bündelung von optimierter Hardware und Software für KI erweiterte die IaaS-Fähigkeiten von Kingsoft Cloud, um die KI-Arbeitslasten besser zu unterstützen. Benutzer müssen sich nun nicht mehr mit einer komplizierten Konfiguration und Feinabstimmung der zugrunde liegenden KI-Frameworks herumschlagen, sondern erhalten mit diesem Service aus einer Hand eine optimale Leistung in der auf skalierbaren Intel® Xeon® Prozessoren basierenden Cloud-Infrastruktur.

Tests von Kingsoft Cloud zeigen, dass sich die Leistung von mehrfach optimierten KI-Frameworks um ein Vielfaches verbessert hat – bei verschiedenen Deep Learning-Modellen sogar bis zu Dutzenden von Malen. Dies zeigt, dass das verbesserte IaaS von Kingsoft Cloud, das optimierte Hardware und Software für die skalierbare Intel® Xeon® Plattform bündelt, eine herausragende Leistung für die Forschung und Entwicklung von KI in verschiedenen Anwendungsszenarien bietet und den F&E-Fortschritt der Entwickler von KI beschleunigen kann.

Kingsoft Cloud ist bestrebt, erstklassige Cloud-Dienste für die KI-Forschung und -Entwicklung anzubieten. Dies erfordert nicht nur eine leistungsstarke Hardware-Plattform als Grundlage, sondern hängt auch von der Zusammenarbeit und der vollständigen Optimierung von Software und Hardware ab. Durch den Einsatz verschiedener fortschrittlicher Intel-Hardwareprodukte und mit der Einführung von Intel Optimierungen für TensorFlow, Intel Optimierungen für Caffe und anderen optimierten Frameworks bieten wir Entwicklern erweitertes IaaS, während wir gleichzeitig ihre Investitionen in die Systembereitstellung und -optimierung erheblich reduzieren. Dadurch können sie sich mehr auf das KI-Geschäft selbst konzentrieren.“ – Feng Yang, F&E-Direktor für Cloud-Computing bei Kingsoft Cloud

Vorteile der Kingsoft Cloud-Lösungen1

  • Die zahlreichen vorgefertigten Intel-Optimierungen für Deep Learning-Frameworks ermöglichen es Anwendern, die Forschung und Entwicklung von KI mit Kingsoft Cloud betreiben, Zeit und Aufwand für das Herunterladen, Bereitstellen und Optimieren der relevanten Frameworks zu reduzieren, um mehr Ressourcen für die KI-Arbeit selbst einsetzen zu können;
  • Intel Optimierungen für TensorFlow verbessert die Leistung von Kingsoft Cloud-Instanzen, die auf Prozessoren auf Basis der Intel® Architektur in verschiedenen DNN-Modellen (Deep Neural Network) basieren, um das 2,45- bis 2,89-Fache;1
  • Mit der Einführung von Intel Optimierungen für Caffe verbesserte sich die Leistung von Kingsoft Cloud-Instanzen, die auf Prozessoren mit Intel Architektur basieren, in verschiedenen DNN-Modellen. Bei ResNet50 hat sich die Leistung um fast das 30-Fache verbessert.1

Bereitstellung einer leistungsstarken IaaS für die KI

Die sich ständig weiterentwickelnden öffentlichen Cloud-Dienste spielen eine immer wichtigere Rolle in der Forschung und Entwicklung von KI. Mit flexibler Ressourcenzuweisung und hoher Skalierbarkeit ermöglichen öffentliche Cloud-Dienste eine flexible Planung der für die Forschung und Entwicklung von KI benötigten Rechenleistung, Algorithmen und Daten und können so die Effizienz steigern. Infolgedessen wenden sich immer mehr KI-Entwicklungsteams für ihre F&E von KI und Innovationen an Cloud-Dienste.

Um den Benutzern effizientere und kostengünstigere IaaS-Dienste zu bieten, arbeiten Kingsoft Cloud und Intel gemeinsam an der Einführung von skalierbaren Intel Xeon Prozessoren, Intel® Optane™ DC SSDs, 25 GbE Intel® Ethernet-Netzwerkadaptern und anderen hochmodernen Hardware-Produkten und -Technologien in Kingsoft Cloud-Instanzen (Cloud-Server, physische Cloud-Hosts usw.). Diese bilden die Grundlage, auf der leistungsstarke IaaS-Funktionen aufgebaut werden können.

Nehmen Sie als Beispiel den Intel® Xeon® Platinum 8168 Prozessor, der von Kingsoft Cloud eingesetzt wird. Er verfügt über eine optimierte Mikroarchitektur mit bis zu 24 Kernen und 48 Threads, die eine höhere Rechenleistung und Skalierbarkeit für rechenintensive KI-Inferenzarbeitslasten bietet. Währenddessen können seine Intel® Advanced Vector Extensions 512 (Intel® AVX-512) gleichzeitig 16 Gleitkommazahlen mit einfacher Genauigkeit verarbeiten, wodurch die Verarbeitungskapazität für Gleitkommazahlen mit einfacher Genauigkeit im Vergleich zur vorherigen Generation der Intel® Advanced Vector Extensions 2 (Intel® AVX2) verdoppelt wird. Dies geschieht über stärker verschmolzene Multiplikations-Additionseinheiten (FMA), was einen erheblichen Vorteil bei der intensiven KI-Vektorberechnung bietet.

Parallel dazu verstärken die Intel® Prozessorplattformen diese Vorteile mittels kontinuierlicher Weiterentwicklung. Die Markteinführung der neuen skalierbaren Intel® Xeon® Prozessoren der 2. Generation mit integrierter Intel® Deep Learning Boost-Technik wird die Leistung und Skalierbarkeit der Gesamtarchitektur von Kingsoft Cloud-Instanzen verbessern. Zusammen mit anderen Hardware-Technologien und -Produkten wird dies den KI-Entwicklungsteams in verschiedenen KI-Anwendungsszenarien, wie z. B. bei Sprach-, Bild- und Videoanwendungen, Gewicht verleihen.

Intel® Optimierungen für KI-Frameworks

Aber folgt daraus auch, dass die Verbesserung der Hardware-Leistung zu einer entsprechenden Verbesserung der Arbeitseffizienz der KI führt? Beobachtungen von Kingsoft Cloud deuten darauf hin, dass KI-Entwicklungsteams eine optimale Effizienz sicherstellen müssen, indem sie die Installation, den Einsatz und die Feinabstimmung von Deep Learning-Frameworks nach der Bestimmung ihrer Hochleistungs-Hardwaregeräte vorantreiben. Dies ist eine Verschwendung kostbarer Zeit und impliziert eine Vergeudung von Ressourcen, wenn die Auswirkungen der versuchten Optimierung geringer sind als wünschenswert. Wenn ein Benutzer beispielsweise eine physische Cloud-Host-Instanz mit 24 vCPUs (virtuellen Prozessorkernen) beantragt, können möglicherweise nur 50 % der Prozessorkerne voll ausgelastet werden, wenn die Parallelverarbeitungskapazität der nativen KI-Frameworks nicht ausreicht. Infolgedessen müsste der Benutzer mehr Cloud-Instanzen beantragen, um seinen Anforderungen gerecht zu werden, was die Effizienz der Systeme senken und die Gesamtbetriebskosten (TCO) erhöhen würde.

Um dieses Problem zu lösen, arbeitet Kingsoft Cloud mit Intel zusammen, um den Benutzern Intel Optimierungen für KI anzubieten, in die mehrere optimierte Deep-Learning-Frameworks integriert sind. Dieser verbesserte IaaS-Cloud-Service für die F&E der KI auf skalierbaren Intel Xeon Prozessoren befreit Entwickler vom Herunterladen, Installieren, Konfigurieren und Feinabstimmen dieser Frameworks und ermöglicht eine höhere Leistung.

Abbildung 1: Verbesserte IaaS-Cloud-Dienste für die F&E von KI.

Nehmen Sie die Intel Optimierungen für TensorFlow als Beispiel: Sie bieten Unterstützung für die DNN-Stammfunktion in der Intel® Math Kernel Library für Deep Neural Networks (Intel® MKL-DNN). Dazu gehören eine Reihe von Allzweck-KI-Berechnungsverfahren wie 2D-Faltung, Skalarprodukt/Matrix-Multiplikation, Batch-Normalisierung, ReLU-Aktivierung und multidimensionale Transposition. Wenn Intel Optimierungen für TensorFlow auf skalierbaren Intel Xeon Prozessorplattformen eingesetzt werden, wird die Intel MKL-DNN-Stammfunktion verwendet, um Benutzern beim schnellen Aufbau der erforderlichen Funktionsmodule zu helfen.

Intel Optimierungen für TensorFlow verwenden auch Code-Refactoring zur Vektorisierung massiver Rechenprozesse (wie Faltung und Matrizenmultiplikation), die für Deep Learning-Berechnungen erforderlich sind, wobei die Berechnung Intel AVX-512 überlassen wird, um seine Stärke bei der Vektorberechnung zu nutzen. Abgesehen davon können Intel Optimierungen für TensorFlow auch ungenutzte Prozessorkerne einplanen, um die Multicore-Leistung von skalierbaren Intel Xeon Prozessoren weiter zu erhöhen.

In ähnlicher Weise machen Intel Optimierungen für Caffe vollen Gebrauch von Intel MKL-DNN, um verschiedene Rechenprozesse bei KI-Arbeitslasten zu beschleunigen. Beispielsweise werden hochgradig vektorisierte und mit Threads versehene Bausteine in Intel MKL-DNN verwendet, um Faltungsmodelle neuronaler Netze in C- und C++-Schnittstellen zu implementieren und die Inferenzleistung der KI mit konvergenten Techniklösungen wie der Schichtenfusion weiter zu verbessern.

Leistungsvergleiche vor und nach der Optimierung

Um zu verifizieren, dass die Leistung von Cloud-Host-Instanzen mit der Einführung der Intel Optimierungen für KI verbessert wurde, führten Kingsoft und Intel eine Reihe von Tests an einer Kingsoft-Cloud-Allzweck-N3-Instanz durch2, wobei der Schwerpunkt auf den Netzwerkmodellen ResNet50 (ein neuronales Restnetz), ResNeXt50 (ein aufgerüstetes neuronales Restnetz), Inception-V3 (ein faltendes neuronales Netz), SSD-MobileNet (ein Objekterkennungsnetz) und Wide & Deep (ein klassischer Empfehlungsalgorithmus auf der Grundlage von MovieLens-1M-Datensätzen) liegt. Diese neuronalen Netzwerkmodelle werden häufig für Bildsegmentierung, Inhaltsempfehlungen und andere gängige KI-Szenarien verwendet.

Zunächst wurde der Beitrag zur KI-Inferenzleistung zwischen Intel Optimierungen für TensorFlow und nativem TensorFlow in vier DNNs verglichen: ResNet50, Inception-V3, SSDMobileNet und Wide & Deep. Die Batch-Größe von ResNet50, Inception-V3 und SSD-MobileNet wurde auf 1 festgelegt, während die Batch-Größe von Wide & Deep auf 256 festgelegt wurde.

Abbildung 2. Vergleich zwischen nativem TensorFlow und Intel Optimierungen für TensorFlow in ihrem Beitrag zur KI-Inferenzleistung in verschiedenen DNNs.

Die in Abbildung 2 dargestellten Vergleichsergebnisse zeigen, dass die Intel Optimierungen für TensorFlow die KI-Inferenzleistung einer Cloud-Instanz in vier DNNs im Vergleich zu nativem TensorFlow unterschiedlich verbesserte. Die Leistung wurde im SSD-MobileNet um das 2,89-Fache verbessert.

In einer weiteren Reihe von Tests verglichen Kingsoft und Intel die Leistung der Vorwärtspropagation, die von Intel Optimierungen für Caffe und BVLC Caffe in ResNet50, Inception-V3, SSD MobileNet und ResNeXt50 implementiert wurde. Die Batch-Größe in vier neuronalen Netzwerken wurde auf 1 gesetzt.

Abbildung 3: Vergleich zwischen nativem Caffe und Intel Optimierungen für Caffe bezüglich ihres Beitrags zur KI-Vorwärtspropagation in verschiedenen DNNs.

Aus den in Abbildung 3 dargestellten Ergebnissen geht hervor, dass der Beitrag von BVLC Caffe zur Leistung der Vorwärtspropagation in allen vier DNNs unter den Erwartungen lag. Im Gegensatz dazu wurde die Leistung in diesen DNNs mithilfe von Intel Optimierungen für Caffe um ein Vielfaches oder sogar dutzende Male verbessert. Bei ResNet50 wurde eine unglaubliche 27,5-fache Verbesserung erzielt.

Fazit

Indem Kingsofts erweiterte IaaS den Benutzern sowohl eine hochleistungsfähige Hardware-Infrastruktur als auch eine ebensolche KI-Software (die mehrere optimierte Deep-Learning-Frameworks umfasst) in einem Bündel bereitstellt, bietet Kingsoft den KI-Entwicklungsteams eine Lösung aus einer Hand mit höherer Leistung, umfassenderen technischen Lösungen und besserer Skalierbarkeit. Dadurch können sie einen größeren Teil ihrer Ressourcen der anwendungsbezogenen F&E und dem Unternehmen selbst widmen, was bedeutet, dass sie sowohl die Entwicklungseffizienz steigern als auch die TCO senken können.

Kingsoft Cloud und Intel werden ihre technische Zusammenarbeit in der Frage, wie Cloud-Dienste die F&E-Effizienz der KI in Zukunft verbessern können, weiter ausbauen und verbessern. Mit dem Einsatz von skalierbaren Intel Xeon Prozessoren der 2. Generation, persistentem Intel® Optane™ DC Speicher und anderen neuen Hardwareprodukten bei Kingsoft Cloud werden sich beide Parteien darauf konzentrieren, wie der Wert von Intel® Deep Learning Boost und High-Density Memory Cloud-Instanzen für die KI genutzt werden kann, um die Forschung, Entwicklung und Kommerzialisierung zu verbessern.

Tipps

Intel® Optimierung für TensorFlow*: TensorFlow ist ein Open-Source-Framework für Deep Learning, das in KI-Bereichen weit verbreitet ist. Die Funktion bietet Unterstützung für Workloads wie maschinelles Sehen, Spracherkennung und Verarbeitung natürlicher Sprache (NLP). Um die Betriebsleistung von nativem TensorFlow auf einer auf Intel Architektur basierenden Prozessorplattform zu verbessern, arbeitete Intel mit seinen Partnern zusammen, um bedeutende Optimierungen vorzunehmen. Dazu gehörte die effektivere Nutzung des Intel AVX-512-Befehlssatzes, die Erhöhung der Auslastung des Prozessorkerns zur Erzielung einer höheren Leistung, die Implementierung der Parallelisierung auf der designierten Schicht oder Funktion oder zwischen den Schichten, die Ausbalancierung des Einsatzes von Prefetch-Modul- und Cache-Modul-Techniken sowie die Verbesserung des Datenformats von räumlichen und zeitlichen Lokalitäten. Mit diesen Optimierungen sorgen Intel Optimierungen für TensorFlow für eine beeindruckende Leistungssteigerung im Vergleich zu nativem TensorFlow.

Intel® Optimierungen für Caffe*: Caffe ist ein Deep Learning-Framework, das vom Berkeley Vision and Learning Center (BVLC) und Mitwirkenden aus der Community entwickelt wurde und mit einer großen Anzahl vorab trainierter Modelle geliefert wird. Neben der leistungsstarken Unterstützung von Vision, Sprache und Multimedia für KI-Anwendungen unterstützt Intel® Optimierungen für Caffe auch die Verwendung von OpenCV (einer weit verbreiteten Bibliothek für Computervision), um die Computervision-Funktion mobiler Geräte zu verbessern. Intel Optimierungen für Caffe enthält alle Vorzüge von BVLC Caffe und bietet gleichzeitig Funktionalität und verteiltes Multinode-Training sowie Bewertung für die Intel Optimierungen. Dank der Code-Vektorisierung kann Intel Optimierungen für Caffe Prozessorressourcen effizient nutzen, die Leistung von Funktionsaufrufen verbessern, die Komplexität von Algorithmen verringern und die Anzahl der Berechnungen reduzieren. Gleichzeitig führt diese Version Code-Optimierungen für Prozessoren und Systeme sowie die OpenMP-Code-Parallelisierungstechnik ein, die zusammen die Leistung im Vergleich zu BVLC Caffe deutlich verbessern.

Weitere Informationen finden Sie unter den folgenden URLs:
https://github.com/IntelAI/models
https://github.com/intel/caffe
https://www.intel.ai/tensorflow-optimizations-intel-xeon-scalable-processor/
https://software.intel.com/en-us/articles/intel-optimization-for-tensorflow-installation-guide
https://software.intel.com/en-us/mkl/documentation/view-all

Weitere Informationen über Intels Software-Optimierung für KI-Workloads ›

PDF herunterladen ›