Nutzen Sie maschinelles Lernen zur Beschleunigung der Wertschöpfung...

Lösungsvorteile:

Schließt die Kompetenzlücke in der Datenwissenschaft. Ermöglicht es einer Vielzahl von Geschäftsanwendern, maschinelle Lernmodelle zu entwickeln.
Bietet ein gutes Preis-Leistungs-Verhältnis für das Training für maschinelles Lernen. Trainiert kostengünstig mehrere Modelle mit großen Datensätzen gleichzeitig.
Entwickelt KI-Erfolg. Erstellt schnell robuste, transparente Modelle für maschinelles Lernen und ebnet so den Weg für die Einführung von KI.

PDF

Lokendra Uppuluri

Architekt für KI-Lösungen

Intel Datenplattformen

Felix Huthmacher

Techniker

DataRobot

Snehal Adsule

Techniker für KI-Lösungen

Intel Datenplattformen

Suleyman Sair

Leitender Architekt

Intel Architektur, Grafik und Software

Kurzübersicht:

Der wachsende Wunsch, aus künstlicher Intelligenz (KI) geschäftlichen Nutzen zu ziehen, hat eine Lücke zwischen der Nachfrage nach Fachkompetenz für Datenwissenschaften und dem Angebot an Datenwissenschaftlern entstehen lassen. Die Plattform für automatisiertes maschinelles Lernen (AutoML) von DataRobot, die auf der Intel® Architektur läuft, löst diese Herausforderung, indem sie viele Aufgaben automatisiert, die für die Entwicklung von Anwendungen für KI und maschinelles Lernen erforderlich sind.

DataRobot-Anwender können innerhalb von Minuten genaue und transparente Vorhersagemodelle erstellen. Experten für Datenwissenschaften können effizienter arbeiten. Geschäftskunden können robuste Modelle für maschinelles Lernen erstellen, indem sie ihr Verständnis für Unternehmensdaten und Geschäftsprozesse anwenden. Unternehmen können KI auf wichtige geschäftliche Herausforderungen anwenden und sich für den Erfolg in der aufkommenden Algorithmus-Ökonomie positionieren.

Die für die neueste Intel Technik optimierte DataRobot AutoML-Lösung bietet unübertroffene Leistung, Arbeitsspeicherkapazität und Skalierbarkeit für die Erstellung, das Training und den Einsatz von Modellen für maschinelles Lernen in einer vertrauten, kosteneffizienten Infrastruktur. Mithilfe der skalierbaren Intel® Xeon® Prozessoren der 2. Generation und persistentem Intel® Optane™ Speicher können Unternehmen Modelle auf Datensätzen von bis zu 100 GB trainieren. In Benchmark-Tests trainierte ein System mit persistentem Intel Optane Speicher praktisch mit der gleichen Geschwindigkeit wie ein reines DRAM-System, je nach Größe des Datensatzes und der Trainingsmethode. Das System mit persistentem Intel Optane Speicher konnte im Vergleich zu einem reinen DRAM-System bei gleichen Speicherkosten einen bis zu 1,33-mal größeren Datensatz trainieren.¹

Abbildung 1: DataRobot basiert auf Intel® Technik und trägt zum Erfolg von KI bei, indem es die Entwicklung robuster Tools für maschinelles Lernen automatisiert.

Geschäftliche Herausforderung: Füllen der Talentlücke in der Datenwissenschaft

Unternehmen aller Größenordnungen sind bestrebt, KI für ihre schwierigsten Herausforderungen und spannendsten Möglichkeiten einzusetzen. Viele erkennen maschinelles Lernen und andere Formen der KI als leistungsstarke Möglichkeiten, Wettbewerbsvorteile zu erzielen, indem sie neue Erkenntnisse aus ihren wachsenden Datenbeständen gewinnen. Der weltweite KI-Markt, der 2018 auf 20,67 Mrd. USD geschätzt wurde, wird bis 2026 voraussichtlich auf 202,57 Mrd. USD anwachsen, was einer kumulativen jährlichen Wachstumsrate von 33,1 % ab 2019 entspricht.²

Die steigende Nachfrage nach KI-Lösungen hat zu einem erheblichen Mangel an KI-Talenten geführt. Laut einem Bericht von TalentSeer vom Januar 2020 ist die Nachfrage nach KI-Fachkräften in den vier vorangegangenen Jahren jeweils um 74 Prozent gestiegen.³ In einer Gartner-Umfrage unter 3.000 CIOs von Unternehmen aus 89 Ländern nannten 54 Prozent den Fachkräftemangel als ihre größte KI-Herausforderung⁴.

Neben dem Mangel an Experten für Datenwissenschaft wird die Entwicklung von maschinellem Lernen durch Aufgaben behindert, die oft komplex, mühsam und zeitaufwendig sind. Infolgedessen verbringen Datenwissenschaftler wertvolle Zeit mit der Durchführung dieser Aufgaben, anstatt ihr Fachwissen voll auszuschöpfen. Darüber hinaus verfügen viele Personen, die sich mit Unternehmensdaten auskennen, nicht über die spezifischen Fähigkeiten zur Erstellung von Modellen für maschinelles Lernen. Diese Probleme verlangsamen die KI-Entwicklung und hindern Unternehmen daran, KI so schnell und umfassend einzusetzen, wie es der Geschäftsbedarf erfordert.

Lösungsüberblick: Automatisiertes maschinelles Lernen mit DataRobot und Intel

DataRobot nutzt automatisiertes maschinelles Lernen (AutoML), um die KI-Kompetenzlücke zu schließen. Die DataRobot-Lösung automatisiert und ersetzt einen Großteil der mühsamen manuellen Arbeit, die bei herkömmlichen datenwissenschaftlichen Prozessen erforderlich ist. Es ermöglicht datenversierten Anwendern aller Qualifikationsstufen das schnelle Entwickeln, Testen, Modellieren und Bereitstellen von Algorithmen des maschinellen Lernens unter Verwendung von Best Practices und Sicherheitsvorkehrungen, die menschliche Fehler vermeiden helfen.

Mit DataRobot können Benutzer im gesamten Unternehmen auf ihrem Wissen über Geschäftsdaten aufbauen, um fortschrittliche Modelle für maschinelles Lernen zu erstellen, ohne dass sie Code erstellen oder die Feinheiten spezifischer Algorithmen verstehen müssen. Datenwissenschaftler können ihr einzigartiges Fachwissen bei der Auswahl und Feinabstimmung von Modellen produktiv einsetzen. Unternehmen können schnell präzise Modelle für maschinelles Lernen erstellen und einen größeren Wert aus Unternehmensdaten ziehen. Abbildung 2 zeigt die grafische Benutzeroberfläche (GUI) der DataRobot-Lösung.

Abbildung 2: Die intuitive Benutzeroberfläche von DataRobot hilft Anwendern mit Kenntnissen über Unternehmensdaten bei der Entwicklung von Modellen für maschinelles Lernen, ohne dass sie sich mit den Details der Algorithmenentwicklung, dem Funktionstraining und anderen Aspekten befassen müssen.

DataRobot nutzt maschinelles Lernen und Intel Technik, um riesige Datenmengen zu analysieren und Beziehungen, Trends und Muster zu erfassen, die für bisherige Business Intelligence- und Analyseverfahren möglicherweise zu subtil sind, um sie zu erkennen. Die Benutzer geben die relevanten Daten ein und wählen die Variable aus, die sie vorhersagen möchten. DataRobot wählt die am besten geeigneten Algorithmen aus und optimiert die Datenaufbereitung, Funktionsentwicklung und die Parameterabstimmung für jeden Algorithmus. DataRobot erstellt und trainiert Hunderte von Vorhersagemodellen, ordnet die Modelle ein, bewertet sie und empfiehlt das beste Modell für die Daten und das Vorhersageziel. Anstatt Wochen oder Monate mit der Entwicklung und dem Testen einiger weniger handkodierter Modelle zu verbringen, können Benutzer Hunderte von Modellen erstellen und untersuchen und das Modell mit der besten Leistung einsetzen – und das alles innerhalb weniger Stunden.

DataRobot ist auf Transparenz ausgelegt, sodass die Benutzer verstehen und erklären können, wie die Modelle erstellt wurden und warum die Modelle die Vorhersagen getroffen haben, die sie gemacht haben. Integrierte Visualisierungen zeigen, welche Datentypen den größten Einfluss auf ein Modell haben, und geben Einblicke in die Auswirkungen einzelner Variablen auf das Unternehmen. Die Lösung nutzt die Leistung, Skalierbarkeit und Arbeitsspeicherkapazität der Intel Technik, um Modelle für maschinelles Lernen zu erstellen, zu trainieren und zu bewerten sowie wachsende Datensätze und Anwendungsfälle zu verarbeiten.

Erkenntnisse und Werte mit AutoML gewinnen

Verschiedene Branchen nutzen die DataRobot AutoML-Lösung, um Vorhersagemodelle zu erstellen, die das menschliche Fachwissen ergänzen, die datengestützte Entscheidungsfindung verbessern, die Effizienz steigern und vieles mehr. Hier einige Beispiele:

Versicherungsunternehmen zielen auf Bereiche von Assekuranz bis zum Marketing ab. Sie nutzen die Erkenntnisse des maschinellen Lernens, um Preisgestaltungsalgorithmen zu optimieren, die Risikobewertung zu verbessern und betrügerische Ansprüche zu reduzieren.
Finanztechnologieunternehmen sagen betrügerische Kreditkartentransaktionen voraus und entwickeln neue Anlageprodukte. Sie stärken die Sicherheit der Blockchain, indem sie anomales Verhalten innerhalb der Chain aufspüren und die Response-Raten im Marketing durch verbesserte Zielgruppenansprache erhöhen.
Einzelhändler erhalten neue Erkenntnisse über das Ausgabe- und Einkaufsverhalten ihrer Kunden über alle Kanäle hinweg. Sie nutzen diese Erkenntnisse, um Produktmix, Werbeaktionen, Kommunikation und Medienauswahl besser aufeinander abzustimmen, um das richtige Produkt am richtigen Ort und zur richtigen Zeit auszuwählen.
Hersteller unternehmen die nächsten Schritte in der Fabrikautomatisierung und der Optimierung der Lieferkette, um weitere Produktivitätssteigerungen, Kosteneinsparungen und Qualitätsverbesserungen zu erzielen. Mithilfe von vorausschauender Wartung und Echtzeit-Datenströmen von vernetzten Anlagen optimieren sie Kosten und Betriebszeiten, indem sie Anlagen warten, bevor sie ausfallen. Sie integrieren Modelle für maschinelles Lernen in die Entwicklung von intelligenten Produkten der nächsten Generation.
Behörden des öffentlichen Sektors nutzen Modelle für maschinelles Lernen mit Echtzeitdaten, um potenzielle terroristische Aktivitäten, betrügerische Handlungen und Bedrohungen der Cybersicherheit vorherzusagen. Skalierbare Lösungen für maschinelles Lernen sind eine wichtige Voraussetzung für Smart-City-Funktionen, mit denen die öffentliche Sicherheit, die Verkehrseffizienz und vieles mehr verbessert werden kann.
Organisationen des Gesundheitswesens ergänzen das Urteilsvermögen der klinischen Pflegeteams mit Modellen für maschinelles Lernen, die Patienten mit hohem Risiko für lebensbedrohliche Infektionen oder teure Wiedereinweisungen kennzeichnen. Pharmaunternehmen optimieren die Logistik von Arzneimittellieferungen, um Lieferkosten und Kundenservice zu verbessern.

Lösungswert: Optimierter Weg zu einem KI-gesteuerten Unternehmen

Die AutoML-Lösung von DataRobot und Intel verändert die Geschwindigkeit und Wirtschaftlichkeit von prädiktiven Analysen und bietet einen schnellen Weg zum KI-Erfolg. Diese industrietaugliche Plattform behebt den Fachkräftemangel, indem sie Datenwissenschaftler produktiver macht. Sie befähigt Datenexperten mit Datenkenntnissen und Geschäftssinn zur schnellen Entwicklung und Bereitstellung präziser Vorhersagemodelle. Sie geht auch auf die Notwendigkeit ein, dass viele DataRobot-Benutzer Modelle auf sehr großen Datensätzen trainieren müssen. Unternehmen können ihre Bemühungen im Bereich des maschinellen Lernens skalieren, um mehr Projekte abzuschließen, neue Anwendungsfälle zu erforschen und KI breiter in ihrem Unternehmen einzusetzen. Sie können KI demokratisieren und KI-gesteuerte Unternehmen schaffen.

DataRobot ist eine umfassende Lösung, die in allen kritischen Phasen der Entwicklung und des Einsatzes von Modellen für maschinelles Lernen einen Mehrwert bietet.

Daten einlesen. DataRobot transformiert strukturierte und unstrukturierte Daten in das spezifische Format, das jeder Algorithmus für eine optimale Leistung benötigt. Es folgt den Best Practices für die Datenpartitionierung.
Technische Funktionen. DataRobot entwickelt neue Funktionen aus bestehenden numerischen, kategorischen und Textfunktionen. Es weiß, welche Algorithmen von zusätzlicher Funktionsentwicklung profitieren und welche nicht, und erzeugt nur Funktionen, die angesichts der Datenmerkmale sinnvoll sind.
Entdecken und wählen Sie Algorithmen. DataRobot bietet Zugang zu Hunderten von Algorithmen zusammen mit der entsprechenden Vorverarbeitung, damit die Benutzer sie mit ihren Daten testen können. Es hilft den Nutzern, die Algorithmen auszuwählen, die für ihre Daten und ihre KI-Herausforderung sinnvoll sind.
Training und Abstimmung von Modellen für maschinelles Lernen. DataRobot trainiert die Modelle anhand der Daten des Benutzers und optimiert die wichtigsten Hyperparameter für jeden Algorithmus durch intelligente Abstimmung.
Finden Sie optimale Algorithmus-Kombinationen. Ensemble- oder Blender-Modelle übertreffen in der Regel die Leistung einzelner Algorithmen. DataRobot findet die optimalen Algorithmen zum Mischen und stimmt die Gewichtung der Algorithmen innerhalb jedes Ensemblemodells ab.
Vergleichen Sie Modelle direkt miteinander. DataRobot erstellt und trainiert Dutzende von Modellen, vergleicht die Ergebnisse und stuft die Modelle nach Genauigkeit, Geschwindigkeit und der effizientesten Kombination ein. Die Benutzer können die Modelle mit der intuitiven Benutzeroberfläche von DataRobot erkunden und auswählen, mit welchen sie fortfahren möchten.
Vertrauen aufbauen. Um Transparenz zu gewährleisten, erläutert DataRobot seine Modellentscheidungen und zeigt, welche Funktionen den größten Einfluss auf die Genauigkeit des Modells haben und welche Muster für jedes Merkmal angepasst wurden. Es bietet Erklärungen, um die Gründe für eine bestimmte Vorhersage zu erläutern.
Bereitstellung produktionsreifer Modelle. DataRobot erstellt produktionsreife Modelle, die Benutzer mit nur wenigen Zeilen Code in Unternehmensanwendungen integrieren können. Modelle können für Echtzeit-Vorhersagen, Batch-Bereitstellungen, Bewertungen auf Apache Hadoop oder andere Methoden eingesetzt werden. Benutzer können ihre eigenen Modelle mit R, Python, Apache Spark, MLlib, H2O und anderen Tools entwickeln und die DataRobot-Bibliothek aufrufen, um sie zu aktivieren.
Überwachen und verwalten. Nach der Bereitstellung macht es DataRobot einfach, Vorhersagen mit den tatsächlichen Ergebnissen zu vergleichen und ein neues Modell auf den neuesten Daten zu trainieren. DataRobot zeigt proaktiv an, wenn sich die Leistung eines Modells im Laufe der Zeit verschlechtert.

Lösungsarchitektur für automatisiertes maschinelles Lernen

Leistungsstarke Intel Technik hilft DataRobot, die Leistung zu optimieren, um mehrere Modelle für maschinelles Lernen gleichzeitig zu automatisieren, zu trainieren und zu bewerten und KI-Anwendungen in großem Umfang bereitzustellen (siehe Abbildung 3).

Abbildung 3: DataRobot nutzt die neueste Intel® Technik, um eine hervorragende Leistung für die automatisierte Entwicklung von maschinellem Lernen zu bieten.

Für jedes neue Modell durchsucht DataRobot seine wachsende Bibliothek mit Tausenden von Open-Source-Modellen für maschinelles Lernen.

DataRobot wertet mögliche Kombinationen von Algorithmen, Vorverarbeitungsschritten und anderen Attributen aus, um die am besten geeigneten Elemente für einen bestimmten Datensatz und ein Vorhersageziel auszuwählen oder zu konstruieren. Es trainiert die besten Modelle auf den Daten des Benutzers und präsentiert die leistungsfähigsten Modelle zur Bewertung durch den Benutzer. Die bereitgestellten Modelle können Milliarden von Datenkombinationen analysieren, um neue Erkenntnisse zu gewinnen und Signale zu entdecken, die zuvor durch „verrauschte“ Daten verborgen waren. Die Lösung kann in einer privaten Cloud vor Ort oder in einer von DataRobot verwalteten Amazon Web Services (AWS)-Cloud bereitgestellt werden.

DataRobot lässt sich problemlos in das bestehende Technologieumfeld des Unternehmens integrieren. Dazu gehören Sicherheits- und Datenschutztechnologien, Datenintegrations- und Visualisierungstools sowie Infrastrukturplattformen wie Apache Hadoop und SQL-Datenbanken. Strukturierte und unstrukturierte Daten können aus Data Lakes, Tabellen und anderen Unternehmensquellen eingelesen werden, und die Benutzer können über grafische oder programmatische Schnittstellen mit dem System interagieren.

Die DataRobot-Plattform umfasst zwei unabhängige, aber miteinander verknüpfte Produkte:

Regression und Klassifizierung umfasst eine Vielzahl von Regressionstechniken – von einfacher linearer Regression über klassische statistische Regressionsmodelle bis hin zu komplexeren Techniken wie Gradient Boosting und neuronalen Netzwerken. Die Plattform löst sowohl einfache binäre Klassifizierungsprobleme als auch komplexe, klassenübergreifende Probleme mit bis zu 100 Kategorien.
Zeitreihen automatisieren die Entwicklung anspruchsvoller Modelle, die die zukünftigen Werte einer Datenreihe auf der Grundlage ihrer Historie und Trends vorhersagen. Die Plattform integriert die Entwicklung von Zeitreihen-Funktionen, um prädiktive Signale zu ermitteln.

Sie verwendet sowohl grundlegende als auch fortgeschrittene Zeitreihen-Modelle, um die Vorhersagegenauigkeit zu optimieren, und kann Erkenntnisse im Zeitverlauf visualisieren und Modelle in der Produktion einsetzen.

Intel Technik für leistungsstarkes, kosteneffizientes AutoML-Training

Intels neueste Generation der Rechenzentrumstechnik ist von Grund auf für KI-Workloads konzipiert. Sie bietet hervorragende Leistung, Skalierbarkeit und Arbeitsspeicherkapazität für DataRobot-Workloads, die sowohl CPU- als auch Arbeitsspeicherintensiv sind. Unternehmen können den Einsatz von KI vorantreiben und gleichzeitig eine konsistente, kosteneffiziente Umgebung für die KI-Entwicklung und Modellbereitstellung aufrechterhalten.

Skalierbare Intel® Xeon® Prozessoren bieten leistungsstarke Plattformen für datenzentrische Workloads. Die skalierbaren Intel Xeon Prozessoren der 2. Generation verfügen über einen integrierten Hardware-Beschleuniger und Intel® Deep Learning Boost mit Vector Neural Network Instruction (VNNI) zur Steigerung der Inferenzleistung. Darüber hinaus bieten sie hardwaregestützte Sicherheitsfunktionen, die den Aufbau einer vertrauenswürdigen Datenverarbeitungsgrundlage unterstützen. Die neuen skalierbaren Intel Xeon Prozessoren der 3. Generation bieten weitere Leistungsfunktionen, darunter die branchenweit erste x86-Unterstützung für Brain Floating Point 16-Bit (bfloat 16) zur Steigerung der Trainingsleistung.
Der persistente Intel® Optane™ Speicher ist eine neue Klasse von nichtflüchtigem Arbeitsspeicher, der die Lücke zwischen schnellem, aber teurem DRAM und preisgünstigeren, leistungsschwächeren NAND-SSDs füllt. Dieser innovative Arbeitsspeicher nähert sich dem Leistungsniveau von DRAM an, allerdings zu geringeren Kosten pro Gigabyte. Er befindet sich auf dem Speicherbus und ermöglicht mehr als 3 TB Arbeitsspeicher pro CPU-Sockel. Im Arbeitsspeichermodus kann der persistente Intel Optane Speicher transparent als flüchtige Erweiterung von DRAM verwendet werden.
Intel® Solid State Drives (Intel® SSDs) kombinieren hohen Durchsatz, niedrige Latenz und hohe Ausdauer, um die Leistung für datengebundene Anwendungen zu verbessern. Die Intel® SSD D3-S4510 ist eine SATA-basierte SSD, die für leseintensive Workloads optimiert ist. Diese SSDs mit großer Kapazität sind in Größen von 240 GB bis 3,8 TB erhältlich und wurden für mehr Datenspeicher pro Rackeinheit entwickelt. Die Intel SSD DC P4610 ist mit der Intel® 3D NAND Technik mit 64 Ebenen und TLC (tri-level cell) ausgestattet, um Rechenzentrumsmanagern zu helfen, die Speichereffizienz zu optimieren und eine effiziente Verwaltung im großen Maßstab zu gewährleisten.
Die Intel® Ethernet-Netzwerkadapter XXV710 bieten eine flexible, skalierbare Leistung mit der Fähigkeit zur automatischen Aushandlung von 1/10/25 GbE-Verbindungen. Diese Adapter bieten intelligente Offloads und Beschleuniger, um die Netzwerkleistung auf Servern mit skalierbaren Intel Xeon Prozessoren zu optimieren.

Zusammen ermöglichen diese Technologien Unternehmen, die DataRobot einsetzen, das gleichzeitige Trainieren großer Datensätze und mehrerer Modelle mit hoher Leistung.

Benchmarking für AutoML-Training

Das Training von maschinellem Lernen ist eine datenintensive Aufgabe, die erhebliche Mengen an Arbeitsspeicherplatz erfordern kann. Die Anforderungen können besonders hoch sein für eine AutoML-Lösung wie DataRobot, die mehrere Modelle gleichzeitig mit den Daten des Kunden trainiert, bevor sie ein Ranking erstellt. Obwohl Modelle mit unterschiedlichen Datenmengen trainiert werden können, kann ein größerer Datensatz die Modellgenauigkeit erhöhen.

Um den Arbeitsspeicherbedarf von DataRobot zu untersuchen, hat ein Team der AI Solutions Group von Intel DataRobot im Autopilot-Modus verwendet, um Modelle aus dem DataRobot-Modellkatalog zufällig auszuwählen und zu trainieren. Wir fanden heraus, dass das Trainieren mehrerer zufällig ausgewählter Modelle das 6- bis 25-fache der Größe des Datensatzes an Arbeitsspeicherplatz benötigt. Die Spanne hing von den Modelltypen und dem Prozentsatz der für das Training verwendeten Daten ab. Aufgrund des hohen Verhältnisses von Datensatz zu Arbeitsspeicherbedarf benötigen Unternehmen, die große Datensätze trainieren, unter Umständen einen großen Datenpool, um die Leistungseinbußen von Workloads mit begrenzter Speicherkapazität zu vermeiden. Die Konfiguration eines großen, ausschließlich aus DRAM bestehenden Datenpools kann jedoch unerschwinglich teuer sein.

Das Benchmarking-Team wollte herausfinden, wie gut der persistente Intel Optane Speicher diese Situation bewältigen kann. Könnten Speicherinnovationen von Intel DataRobot-Benutzern eine kosteneffiziente Lösung für leistungsstarkes AutoML-Training auf großen Datensätzen bieten?

Das Team begann damit, DataRobot im Autopilot-Modus mit einem 50 GB Testdatensatz zu trainieren. Dann wählten sie mehrere Modelle aus der Rangliste aus und trainierten sie erneut auf zwei Systemen, die sich nur durch die Art des Arbeitsspeichers in ihren Arbeitsknoten unterschieden. Das eine System verwendete ausschließlich DRAM, das andere persistenten Intel Optane Speicher. Abbildung 4 und Tabelle 1 geben einen Überblick über die Benchmarking-Systeme.

Wir haben beide Systeme mit der gleichen Arbeitsspeicherkapazität konfiguriert und die Leistung (Trainingszeit) der beiden Konfigurationen verglichen. Wir erwarteten, dass der persistente Intel Optane Speicher eine etwas geringere Leistung als das System mit reinem DRAM-Speicher bieten würde. Als wir jedoch die Trainingszeit für die ausgewählten Modelle analysierten, stellten wir fest, dass die Leistung auf dem System mit persistentem Intel Optane Speicher je nach dem zu trainierenden Modell ähnlich hoch war wie auf dem System mit reinem DRAM-Speicher.

Dann haben wir mithilfe eines Intel-Preismodells die beiden Systeme für die gleichen Arbeitsspeicherkosten statt für die gleiche Kapazität neu konfiguriert. Unsere Analyse ergab, dass der persistente Intel Optane Speicher eine bis zu 1,33-mal größere Datensatzkapazität für das Training bieten würde als die reine DRAM-Konfiguration, wiederum abhängig vom zu trainierenden Modell.

Abbildung 4¹ zeigt diese Ergebnisse für das Training des Gradient Boosted Trees Classifier für das System mit persistentem Intel Optane Speicher im Vergleich zum reinen DRAM-System. Die linke Hälfte des Diagramms zeigt die Leistung und die Leistung pro Dollar für die gleiche Arbeitsspeicherkapazität. Die rechte Seite zeigt die projizierte Trainingsdatensatzkapazität und die Trainingsdatensatzkapazität pro Dollar für die gleichen Arbeitsspeicherkosten.

Abbildung 4: Der persistente Intel® Optane™ Speicher bietet eine 1,23-fach bessere Leistung pro Dollar bei gleicher Kapazität (linke Seite). Es wird prognostiziert, dass er eine 1,33-mal höhere Kapazität für Trainingsdaten und eine 1,26-mal höhere Trainingskapazität pro Dollar als eine reine DRAM-Konfiguration bietet.

Zusammenfassend haben unsere Tests Folgendes gezeigt:

Unternehmen können auf einem System mit persistentem Intel Optane Speicher praktisch mit der gleichen Geschwindigkeit trainieren wie auf einem reinen DRAM-System und dabei eine 1,23-fache Leistungssteigerung pro Dollar erzielen.
Unternehmen können auf einem System mit persistentem Intel Optane Speicher im Vergleich zu einem reinen DRAM-System voraussichtlich einen bis zu 1,33-mal größeren Datensatz zu den gleichen Kosten trainieren. Dies führt voraussichtlich zu einer bis zu 1,26-fachen indizierten Kapazität pro Dollar.

Systemelement	Arbeitsknoten	Management-Knoten	DataRobot Anwendungsknoten
CPU	Intel® Xeon® Platinum oder Gold Prozessor 2 x Intel Xeon Platinum 8260 Prozessor der 2^. Generation, 35,75M Cache, 2,40 GHz oder 2 x Intel Xeon Gold 6230 Prozessor der 2^. Generation, 27,5M Cache, 2,10 GHz	2 x Intel Xeon Gold 6230 Prozessor der 2^. Generation, 27,5M Cache, 2,10 GHz	2 x Intel Xeon Gold 6230 Prozessor der 2^. Generation, 27,5M Cache, 2,10 GHz
DRAM Arbeitsspeicher	384 GB 2666 MHz, DDR4 ECC RDIMM	192 GB, 2666 MHz DDR4 ECC RDIMM	192 GV, 2666 MHz, DDR4 ECC RDIMM
Nichtflüchtiger Speicher	12 x 128 GB Persistenter Intel® Optane™ Speicher (1,54 TB)	—	—
Bootlaufwerk	2 x 240 GB Intel® SSD DC D3-S4510, M.2	2 x 240 GB Intel SSD DC D3-S4510, M.2	2 x 240 GB Intel SSD DC D3-S4510, M.2
Datenspeicherkapazität	3 x 1,6 TB Intel SSD DC P4610	1,0 TB Intel SSD DC P4510	1,0 TB Intel SSD DC P4510
Netzwerk	Konvergierter Intel® Ethernet-Netzwerkadapter XXV710-DA2 (10/25 GbE)	Konvergierter Intel® Ethernet-Netzwerkadapter XXV710-DA2 (10/25 GbE)	Konvergierter Intel® Ethernet-Netzwerkadapter XXV710-DA2 (10/25 GbE)
Software	DataRobot v5.2.0 Paket Cloudera CDH 5.16.1: n HDFS-DatenNode n Yarn Knoten-Manager n Spark Gateway n Hive Gateway	DataRobot V5.2.0 Paket: n DataRobot Masterservice nDataRobot ETL Controller nDataRobot ETL Default nDataRobot ETL QuickWorker Services Cloudera CDH 5.16.1: nCloudera Manager nYarn Resource Manager nHDFS Benannter Knoten nZookeeper nSpark History Server	DataRobot v5.2.0: nDocker Services

Alles anzeigen Weniger anzeigen

Typische Konfiguration für die Bereitstellung von DataRobot

Tabelle 1 fasst eine typische Systemkonfiguration für den Betrieb von DataRobot vor Ort mit Hadoop-Bereitstellung für Trainingsdatensätze von bis zu 100 GB zusammen. Je nach Größe Ihres Unternehmens und der Anzahl und Größe der Datensätze benötigen Sie möglicherweise mehrere Arbeitsknoten. Bitte wenden Sie sich an Ihren Ansprechpartner bei DataRobot, um mehr über die optimale Dimensionierung für Ihre Trainingsanforderungen zu erfahren.

Fazit: KI im Maßstab

KI ist zu einem Kernelement der Unternehmenstätigkeit und zu einer entscheidenden Quelle der Wettbewerbsdifferenzierung geworden. Mit der KI- und AutoML-Plattform von DataRobot und der branchenführenden Intel Technik können Unternehmen den Mangel an Datenwissenschaftlern beheben und ein wesentliches Hindernis für den KI-Erfolg beseitigen. Sie können schnell produktionsreife Modelle für maschinelles Lernen erstellen, die Produktivität von Datenwissenschaftlern erhöhen, ihre KI-Entwicklungsbemühungen skalieren und maschinelles Lernen auf ihre größten geschäftlichen Herausforderungen und Chancen anwenden.

Durch die Nutzung von KI-optimierter Intel Technik können Unternehmen die volle Leistungsfähigkeit von AutoML ausschöpfen. Sie können leistungsstarke Trainingsplattformen mit bis zu 3 TB persistentem Intel Optane Speicher pro CPU-Sockel einsetzen. Außerdem können sie große Datensätze zu geringeren Kosten als bei Konfigurationen mit reinem DRAM Arbeitsspeicher trainieren. Unabhängig davon, ob sie sich für eine lokale oder eine Cloud-basierte Infrastruktur entscheiden, können sie auf einer vielseitigen, dem Industriestandard entsprechenden Architektur mit herausragender Leistung, Skalierbarkeit und Zuverlässigkeit arbeiten. Mit der AutoML-Lösung von DataRobot und der Intel Technik können sich Unternehmen auf KI-Innovationen und die Schaffung eines KI-gesteuerten Unternehmens konzentrieren.

Finden Sie die passende Lösung für Ihr Unternehmen. Wenden Sie sich an Ihren Ansprechpartner bei Intel oder besuchen Sie intel.com/ai.

Folgende Ressourcen sind eventuell nützlich:

Wählen Sie Ihre Sprache aus

Suche auf Intel.com nutzen

Direktlinks

Kürzlich durchgeführte Suchen

Erweiterte Suche

Nur darin suchen

Nutzen Sie maschinelles Lernen zur Beschleunigung der Wertschöpfung bei KI