Ist Ihr Datenspeicher bereit für KI?

Hauptvorteile

  • Verwaltung komplexter KI-Daten mit einer beschleunigten, effizienten und skalierbaren Datenspeicher-Pipeline

  • Modernisierung Ihres Datenspeicher zur Vorbereitung auf KI: Mehr speichern, effizienter speichern und Skalierbarkeit einplanen

  • Datenspeicher-Infrastruktur auf KI einstellen mit einer gemeinsamen Datenspeicher-Pipeline und anschließende Optimierung auf KI-Workloads

  • Intel® Optane™ Medien optimieren, speichern und verschieben größere, kompliziertere Datensätze über die KI-Pipeline

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Die Beschleunigung hochgradig variabler KI-Datenspeicher-Workloads bei gleichzeitiger Verbesserung der Datenspeichereffizienz ist entscheidend, um den vollen Wert der KI zu realisieren. Informieren Sie sich, wie Sie mit dem Aufbau einer beschleunigten, effizienten und skalierbaren KI-Datenspeicher-Pipeline beginnen können.

Gegenwärtig verwandelt die künstliche Intelligenz alles, von der Medizin bis zur Fertigung, von vernetzten Städten bis zum autonomen Fahren.

Und die Nachfrage überschlägt sich. In einer aktuellen Studie des US-amerikanischen Marktforschungsunternehmens Gartner heißt es dazu: „Die Zahl der Unternehmen, die künstliche Intelligenz einsetzen, ist in den vergangenen vier Jahren um 270 % gestiegen und hat sich im vergangenen Jahr verdreifacht.“ 1 Chris Howard, Vizepräsident bei Gartner, bringt es so auf den Punkt: „CIOs, deren Unternehmen KI noch nicht nutzen, sollten bedenken, dass die Wahrscheinlichkeit, dass ihre Konkurrenten KI einsetzen, hoch ist, und genau das ein Anlass zur Sorge ist.“1

Künstliche Intelligenz, ganz gleich, ob es sich um maschinelles Lernen oder Deep Learning handelt, erfordert, dass IT-Organisationen anders über Daten und Datenspeicherarchitektur denken als über Architekturen für die herkömmlichen Workloads im Unternehmen.

- Patrick Moorhead

Der Knackpunkt ist der, dass KI Daten braucht. Und zwar eine ganze Menge. Sowie viele verschiedene Arten von Daten zu ganz unterschiedlichen Zeiten.

Das international tätige Beratungsunternehmen IDC geht davon aus, dass „die globale Datensphäre bis 2025 auf 175 Zettabyte anwachsen wird“.2 (Ein Zettabyte sind etwa 1.000 Exabyte bzw. eine Milliarde Terabyte. Rechnet man die Terabyte in einem Zettabyte in Kilometer um, so ergibt sich eine Strecke, die 1.300 Reisen von der Erde zum Mond und zurück entspricht.3)

Die meisten Unternehmen sind darauf noch nicht vorbereitet. Laut einer aktuellen Studie von IBM scheint ein Großteil der Fabriken zurzeit weniger als 1 % der anfallenden Daten in Echtzeit zu analysieren.4

Heute hat jedes Unternehmen Probleme, immer mehr Daten effizient zu speichern. Trotz aller Bewunderung von Big Data und KI wird das Thema Datenspeicher selten angesprochen. Als erstes gilt es zu verstehen, wie kompliziert KI-Daten sein können. Häufig wird über die drei Vs gesprochen: Volumen, Velocity und Vielseitigkeit.

Lautstärke

Mit Zuwachs der Trainingsdaten in KI werden auch die Algorithmen intelligenter. Tesla baut seine eigene KI-Infrastruktur, die laut eigener Angaben „die denkenden Algorithmen“ seiner autonomen Antriebssoftware Autopilot „verarbeiten“ wird. Dazu sammelt das Unternehmen 1,3 Milliarden Meilen an Fahrtdaten. Microsoft musste fünf Jahre lang kontinuierlich Sprachdaten speichern, um Computern das Sprechen beibringen zu können.5 „Die Verwaltung dieser immensen Datensätze“, so macht Neil Stobart von Cloudian klar, „erfordert ein Speichersystem, das unendlich skalierbar ist.“6 Wenn es um KI und Daten geht, gilt das Motto: Mehr bringt mehr.

Velocity (Geschwindigkeit)

Gemäß der IDG werden Daten immer entscheidender, was bedeutet, dass sie uns umgehend zur Verfügung stehen müssen: „Der Trend geht weg von Privatanwendern und Unterhaltung als primäre Quellen der Daten und hin zu Unternehmen, die bis 2025 die Quelle von 60 % aller Daten weltweit sein werden. Wir wechseln aus einer Zeit, in der Informationen im Wandel von analog auf digital stehen, in eine Zeit, in der Digitalinformationen vermehrt zum wesentlichen Teil der Systeme werden, die von lebenswichtigen Strukturen für Analytik, maschinelles Lernen und das IoT benötigt werden. Bis 2025 werden fast 20 % der weltweit verfügbaren Daten kritisch für unseren Alltag sein, davon 10 % sogar von „hyperkritischer“ Bedeutung.7

Vielseitigkeit

Die Vielseitigkeit bezeichnet das Format der Daten. Unternehmen wollen das Erlebnis ihrer Kunden verbessern, ihren Betrieb effizienter gestalten und wettbewerbsfähig bleiben und analysieren zu diesem Zweck Daten unterschiedlichster Formate. Nehmen wir als Beispiel ein Einzelhandelsunternehmen mit der Zielsetzung, das Erlebnis in den einzelnen Niederlassungen zu optimieren, die Kundentreue zu steigern, mehr Verkäufe pro Besuch zu erzielen und die Lieferketteneffizienz zu verbessern. Zur Erreichung dieser Ziele ist ggf. die Einspeisung von Daten von Online-Einkäufen, Social-Media-Engagement, SCM-Daten, aus dem Kundendienst und den Reklamationen, von Kameras in den Geschäften, den Standorten der Kunden im Geschäft und Überwachungsgeräten auf den Regalen erforderlich. Das ist eine große Menge an Dateien, Klicks, SMS, Videos, Maschinendaten und Bluetooth-Signalen. Die Lösung der drei Vs besteht darin, für die verschiedenen KI-Funktionen eine gemeinsame Datenpipeline zu schaffen, die eine optimierte Ebene für platzsparende Kapazitäten/Skalierung und eine andere optimierte Ebene für den/die Leistungsspeicher/Skalierung aufweist. Wenn Sie diese Pipeline von Anfang an richtig aufbauen, können Sie die Lösung Ihrer aktuellen Datenprobleme in Angriff nehmen, und sind gleichzeitig besser gerüstet, um die komplexe KI-Datenspeicherarchitektur anzugehen.

Abbildung 1
Implementieren einer einheitlichen Daten-Pipeline, um die hoch komplexen Daten von KI-Workloads zu verwalten.

Wie kann man mit dem Aufbau einer effizienten, skalierbaren und zukunftssicheren KI-Infrastruktur beginnen?

Modernisierung auf KI-bereiten Datenspeicher

Mehr speichern

Der erste Gedanke ist vielleicht: Mehr Daten? Mehr Laufwerke. Aber mit dem Zusatz von mehr Festplatten ist es nicht getan.

Bei ihrer Skalierung fällt die Leistung pro Gigabyte, und das Risiko von Ausfällen der beweglichen Teile steigt. Am Ende arbeiten Sie mit erheblichem, ineffizientem und teurem Platzanspruch für veraltete Technik ohne Erneuerungspotenzial. Selbst Solid-State-Laufwerke (SSDs) mit SATA bieten möglicherweise keine ausreichende Leistung für bestimmte KI-Implementierungen, und ähnlich wie Festplatten (HDDs) beruhen auch sie auf einer Schnittstelle, die nicht mehr auf Leistungszuwachs, Verwaltbarkeit und Kapazitätserweiterung erneuert werden wird.

Effizienter speichern

Heute wählen mehr und mehr Unternehmen PCI Express (PCIe), das das nicht flüchtige Memory Express* Protokoll (NVMe*) unterstützt, und die von KI-Workloads erforderte geringe Latenz und hohe Durchsatzleistung erbringt.

„Weil NVMe* als Interconnect zu Flash-Laufwerken und Arrays mehr Leistung und geringere Systemanforderungen bietet, macht es die Prozesse in den Unternehmen schneller“, erklärt Mary Branscombe auf DataCenterKnowledge.com.8 Viele Speicherlösungen, die häufig für KI-Speichersysteme verwendet werden (Ceph, VMware vSAN, Microsoft Azure Stack HCI), nutzen diese Hardwarevorteile, um die Effizienz zu optimieren.

Skalierbarkeit planen

Datenmengen steigen weiter, und die Komplexität der KI-Modelle wächst. Die Datenspeicher-Infrastruktur muss skalierbar sein, um Schritt halten zu können.

Ein strategischer Innovationsplan für die PCIe-/NVMe-Schnittstelle bietet bessere IOPS/TB und liefert kontinuierliche Fortschritte in der Servicefähigkeit, Leistung, Verwaltbarkeit und dem Formfaktor, was den Speicherplatzanspruch und die Betriebseffizienz optimiert. Das hat dazu geführt, dass mehr PCIe ausgeliefert wird, als SAS und SATA zusammengenommen. Mit PCIe lassen sich KIs unvorhersehbare Mischungen aus randomisierten und sequentiellen Lese- und Schreibvorgängen in verschiedenen Workloads und stark schwankende Größen verwalten.

Die Kombination aus Datenspeichertechnik von Intel, einschließlich Intel® Optane™ SSDs und der Intel® 3D-NAND-SSDs, sind eine optimale Lösung für die Datenspeicherbeschränkungen von KI. Intel® Optane™ SSDs bieten die einzigartige Kombination aus bahnbrechender Leistung und geringer Latenz, die für die Leistungsspeicherebene benötigt werden, während die Intel® QLC-Technik platzsparende hohe Kapazitäten bereitstellt.

Datenspeicher-Infrastruktur auf KI einstellen

Gemeinsame Speicherpipeline aufbauen

Ein Data Lake ist ein zentrales Repository. Hier können Sie alle strukturierten und unstrukturierten Daten in jedem Maßstab speichern. „Sie können Ihre Daten so abspeichern, wie sie sind, und sie analysieren, ohne sie vorher zu strukturieren“, heißt es auf den Seiten von AWS. „Von Dashboards über Visualisierungen bis hin zu Big-Data-Verarbeitung, Echtzeit-Analysen und maschinellen Lernverfahren stehen Ihnen verschiedene Arten von Analysen zur Verfügung, mit denen sie bessere Entscheidungen treffen können.”9

Eine Aberdeen-Umfrage hat ergeben, dass Unternehmen mit Data Lakes ein um 9 % höheres natürliches Wachstum verzeichneten als vergleichbare Unternehmen mit herkömmlichen Silos. Der Data-Lake wird zur Source of Truth, der einzigen Quelle der Wahrheit, in der alle Informationen gesammelt werden und die jedem Zugriff auf diese Informationen bietet.10

Für KI-Workloads optimieren

Datensätze können in der Pipeline als Petabyte eintreffen, als Gigabyte aus strukturierten und halbstrukturierten Daten ins Training übergehen und als trainierte Modelle von Kilobyte-Größe ihren Weg vollenden.

Auch die Workloads sind variabel; sie beginnen mit Einspeisung von 100 % Schreibvorgängen, erreichen in der Vorbereitung eine Mischung aus 50/50 Lese-/Schreibvorgängen und werden dann im letzten Schritt im Training und der Inferenz zu 100 % Lesevorgängen. Komplizierter wird es durch die große Vielfalt der Zugriffsmuster, die von der sequentiellen Einspeisung hin zu stark randomisierten Einheiten im Training variieren (damit lässt sich die Modellgenauigkeit verbessern). Diese Variabilität erfordert wiederum einen hohen Durchsatz und eine extrem geringe Latenz, ganz gleich, woraus das Workload besteht.

Herkömmliche NAND SSDs kommen bei der Erfüllung dieser Anforderungen in der ganzen Länge der Daten-Pipeline an ihre Grenzen. Intel® Optane™ SSDs dagegen bieten die Leistung, die benötigt wird, um die IO-Anforderungen von KI-Workloads zu erfüllen. So kann zum Beispiel die konsequent geringe Latenz der Intel® Optane™ Technologie die Zeit bis zu trainierten Modellen beschleunigen und ein hoher Durchsatz die Aufnahmeleistung des Pufferspeichers verbessern.

Analysieren Sie die aktuellen und zukünftigen Anforderungen in jeder Phase Ihrer Pipeline gründlich und sorgen Sie für eine skalierbare, zukunftsfähige Infrastruktur. So stellen Sie sicher, dass Ihr Datenspeicher KI-ready ist.

Abbildung 2
Vom Erfassen der Daten bis zum Inferencing sind die IO-Anforderungen innerhalb der Daten-Pipeline extrem variabel und anspruchsvoll. Mit Speicherlösungen von Intel, die einen hohen Durchsatz, eine niedrige Latenz und noch dazu eine hohe Kapazität bieten, können Sie Ihre KI-Workloads optimieren

Wer macht es richtig?

Leistungsstarke Intel® Optane™ SSDs und 3D NAND SSDs mit platzsparender Kapazitätsauslastung werden sowohl bei Originalgeräteherstellern (OEM) als auch bei Endkunden immer beliebter. Das ist darauf zurückzuführen, dass die wichtige Rolle, die Speicherleistung, Kapazität und Skalierbarkeit bei der Verbesserung der KI-Effizienz und -Ergebnisse spielen, in der Branche immer offensichtlicher wird.

Zu den Unternehmen mit einer modernen KI-Infrastruktur zählen u. a. Dell EMC, Baidu und iFLYTEK.

Dell EMC schuf in Partnerschaft mit Intel eine Lösung, mit der Datenspeicherkapazitäten für den gesamten KI-Lebenszyklus bereitgestellt werden. Dazu zählen Dell PowerEdge-Server mit Dell EMC-Netzwerk-Switches, Isilon-Speicher und ein optimierter Software-Stack. Dazu sorgen Intel® Optane™ SSDs für eine geringere Latenz und einen höheren Durchsatz als standardmäßige NAND PCIe SSDs.11

Patrick Moorhead, einer der führenden Technologieanalysten, weist darauf hin, wie wichtig die zugrundeliegende Software EMC Isilon ist: Sie vereinfacht und optimiert die Datenspeicherung in jeder Phase des KI-Workflows „mit sehr geringer Latenz, die während des Ingests, der Aufbereitung und dem Inferencing Reaktionen in Echtzeit ermöglicht”.12

Moorhead fasst den Nutzen so zusammen: „Künstliche Intelligenz, ganz gleich, ob maschinelles Lernen oder Deep Learning, verlangt von IT-Organisationen, dass sie anders über Daten und Datenspeicherarchitektur denken als jene für traditionellere Workloads in Unternehmen. Die Datenattribute sind anders. Die Komplexität der Analyse ist anders. Der Bedarf der Personen, die diese Daten nutzen, ist anders. Die Fähigkeit, beschleunigte Rechenknoten mit Daten zu versorgen, ist entscheidend. Die Dell EMC Isilon-basierten KI-Lösungen wurden speziell entwickelt, um diese Anforderungen zu erfüllen.“12

VAST Data wurde von einer Reihe branchenführender Kunden ausgewählt, die KI einsetzen, um ihre Anwendungsumgebung zu modernisieren. VAST hat mit Intel zusammengearbeitet, um eine KI-optimierte Speicherlösung zu liefern, die die Kompromisse bei der Speicherskalierung, der Leistung und der Effizienz eliminiert, um Unternehmen bei der Entwicklung ihrer Datenagenda im Zeitalter der maschinellen Intelligenz zu helfen, die Macht der KI zu nutzen. VAST greift als Teil seiner Universal Storage Platform auf Intel Optane SSDs und Intel QLC 3D NAND-Technologien zurück, um die Barrieren für Leistung, Kapazität und Skalierung zu durchbrechen – wobei die Flash-Ökonomie es den Kunden ermöglicht, sich Flash für alle ihre KI-Schulungsdaten zu leisten.

Laut Eric Burgener, Research Vice President, Infrastructure Systems, Platforms, and Technologies bei IDC, „bietet dieses Design einem einzigen universellen Speicherplattformsystem die Fähigkeit, die niedrigen Latenzen zu bewältigen, die für Transaktions-Workloads erforderlich sind, sowie den hohen Grad an Datenzugriffs-Gleichzeitigkeit, der für künstliche Intelligenz, maschinelles Lernen, Deep Learning und andere Big-Data-Analyseaufgaben erforderlich ist.“13

Baidu hat sich mit seiner Arbeit im Bereich von Suchtechnik weithin einen Namen gemacht. Die chinesische Suchmaschine verzeichnet über 100 Milliarden Seiten, verwaltet 2.000 Petabyte gespeicherter Daten und verarbeitet täglich1 Daten in einer Größenordnung von 100 Petabyte.Mit den technischen Herausforderungen, die die Speicherung einer großen Menge unstrukturierter, kleiner Dateien mit sich bringen kann, kennt sich Baidu daher bestens aus.

Baidus KI-Cloud tritt in die Fußstapfen ihrer erfolgreichen Bereitstellung einer öffentlichen Cloud mit privatem Cloud-Datenspeicher, einschließlich einer neuen, vollständig auf Flash basierenden Hochleistungs-Objektspeicherlösung mit Intel® Optane™ DC SSDs und Intel® QLC 3D NAND SSDs, die für das KI-Training und das Media-Assetmanagement bereitgestellt wurden.

Das Intel® Optane™ SSD wird als Cache genutzt, um die Leseeffizienz und die Synchronisierungslatenz zu optimieren, was die Verarbeitungsgeschwindigkeit der Metadaten steigert. Vier Intel® SSDs der Produktreihe D5-P4320 sind in jedem Datenspeicher-Server enthalten und liefern eine große Speicherkapazität.

Das hohe Preis-/Leistungsverhältnis der Intel® QLC 3D NAND-SSDs gewährleistet die Hochleistung dieser Lösung und kann gleichzeitig effektiv die Gesamtbetriebskosten (TCO) des Systems senken. Erfahren Sie mehr über das Baidu All-Flash-KI-Praxisbeispiel.

iFLYTEK befasst sich mit Spracherkennungssoftware und sprachgesteuerten Internet-/Mobilprodukten. Sie untersuchen KI-Anwendungen im kognitiven Bereich, insbesondere ihr „Super Brain Project“, mit dem „die Neuronen im menschlichen Gehirn nachgeahmt werden sollen, um den intelligenten Sprachgeräten des Unternehmens rudimentäre menschliche Gedankenprozesse zu vermitteln“.

Damit diese tiefe Simulation funktionieren kann, wird eine enorme Menge an Datentraining erforderlich sein, was enorm große Rechenaufgaben bedeutet. Die Deep-Learning-Infrastruktur der Spracherkennung verbindet Computing-Ressourcen über Hochgeschwindigkeitsnetzwerke mit einem parallelen Dateisystem, in dem die Verarbeitungs-Engine für verschiedene Formen des Trainings und der Rechenverarbeitung eingesetzt wird.

„Der Erfolg aller ML- und KI-Maßnahmen hängt von den Daten-Pipelines ab. Diese müssen entsprechend orchestriert sein, damit in den verschiedenen Phasen der KI-Pipeline qualitativ hochwertige Daten im richtigen Format und im richtigen Moment zur Verfügung stehen.“ 14

- Gartner, Three Ways That AI Will Impact Your Data Management and Storage Strategy

Zur Gewährleistung der notwendigen geringen Latenz und der hohen Durchsatzleistung kombinierte iFLYTEK die skalierbaren Intel® Xeon® Prozessoren der 2. Generation mit Intel® Optane™ SSDs. Der Prozessor erwies sich als gut geeignet bei hoher Belastung durch parallele Rechenvorgängen und war bei Hochleistungsaufgaben zuverlässig und skalierbar - also perfekt für die komplexen, neuronalen Deep-Learning-Netzwerke von iFLYTEK. Informieren Sie sich.

Intel® Optane™ Medium, das als die erste große Neuerung des Arbeits- und Datenspeichers seit über 25 Jahren gilt, optimiert, speichert und bewegt größere, vielfach komplexere Datensätze entlang der KI-Pipeline. Dell EMC, Baidu und iFLYTEK können bezeugen, dass die Intel® Optane™ Technologie ein großartiger Ansatz ist. Mehr über Intel® Optane™ Technologie erfahren.

Produkt- und Leistungsinformationen