Baidu ABC Storage: Die Neudefinition von Objektspeicher

Baidu ABC Storage nutzt die Vorteile von Intel® Optane™ SSDs und Intel® QLC-3D-NAND-SSD-Technik, um das Leistungsvermögen und die Kapazität zu steigern.

Komplexe Technik, wie das Training künstlicher Intelligenz (KI), Big-Data-Verarbeitung und High-Performance-Computing (HPC), definiert, in welche Richtung die Entwicklung von Private-Cloud-Storage-Services geht. Storage-Systeme für riesige Datenmengen sind eng mit den Anforderungen von Unternehmen verbunden, insbesondere im Bereich leistungsstarker Storage-Systeme für gewaltige Mengen unstrukturierter kleiner Dateien. Als führender Unternehmen der IT- und Internet-Branche wendet Baidu AI Cloud* seine jahrelange Erfahrung mit Public-Cloud-Storage-Technik auf eine Private-Cloud-Storage-Lösung an, die als essenzielle Komponente seiner ABC-Strategie (AI, Big Data, Cloud) fungieren soll. Im Rahmen seiner Partnerschaft mit Intel verwendet Baidu AI Cloud eine Kombination aus SSDs mit Intel® Optane™ Technik und Intel® QLC-Technik für die zentrale Hardware seiner rein auf Flash-Speicher basierenden Datenspeicherlösung ABC Storage.

„Baidu AI Cloud erwartet, dass seine rein auf Flash-Speicher basierende Objektspeicherlösung den Nutzern von Private Clouds dabei helfen wird, die durch gewaltige Mengen unstrukturierter kleiner Dateien verursachten Herausforderungen zu bewältigen. Die Kombination aus Intel® Optane™ Solid-State-Laufwerken (SSDs) und Intel® SSDs, die auf der Intel® QLC-3D-NAND-Technik basieren, verhalf unserer Lösung zu optimalen Ergebnissen in puncto Stabilität und Input/Output-Operationen pro Sekunde (IOPS).“ – Baidu AI Cloud ABC Storage Team

Datenwachstum: Chance und Herausforderung
Prognosen zufolge soll die weltweite Datenmenge bis 2025 auf 163 ZB (Zettabyte) ansteigen.1 Riesige Datenmengen haben sich – insbesondere infolge des explosiven Wachstums unstrukturierter Daten – zu einem Antriebsfaktor für die Digitalisierung von Unternehmensdaten entwickelt. Ein ebenso wichtiger Faktor ist die rasche und kontinuierliche Weiterentwicklung der zugehörigen IT-Technik. Die Datenmenge wird voraussichtlich den Weg für bahnbrechende Innovationen im Bereich der Digitaltechnik ebnen, etwa maschinelles Sehen, Spracherkennung und Finanzrisikomanagement. Die effektive Verwaltung, Verarbeitung und Nutzung riesiger Datenmengen hat sich daher für Unternehmen, die in ihrer Branche an vorderster Front agieren wollen, zu einem wichtigen Wettbewerbsfaktor entwickelt.

Die Speicherung von gewaltigen Mengen unstrukturierter Daten stellt jedoch traditionelle Storage-Systeme aufgrund der Größe und Menge von Dateien, der Indizierung, der Nutzung von Mustern und veralteter Datenspeichertechik (z. B. sich drehende Festplatten) vor große Herausforderungen. Darüber hinaus bieten Blockspeicher- und Dateispeichersysteme keine ideale Lösung für die Speicherung kleiner Dateien, während KI- und andere neue Anwendungen gleichzeitig in puncto Lese-/Schreibleistung höhere Anforderungen an Storage-Systeme stellen. Diese Faktoren verursachen interessante technische Herausforderungen.

Größe und Menge von Dateien – Das Leistungsvermögen traditioneller Dateispeichersysteme tendiert zu nichtflüchtiger Speichertechnik und nimmt mit dem schnellen Wachstum der Dateimengen ab. In KI-Trainingsszenarien wie der Bilderkennung bestehen die für das Training verwendeten Datenpools erstaunliche Mengen an Dateien, die im Allgemeinen eine kleine Dateigröße haben. In ähnlicher Weise gehen die für beliebte Internet-Anwendungen, wie Media-Asset-Management, unbemannte Fahrzeuge und Videodienste, im System gespeicherten und verarbeiteten Dateimengen für gewöhnlich in die hunderte Millionen. Die rasche Zunahme der Dateimengen führt zur Abnahme und Volatilität der IOPS-Leistung in Storage-Systemen, insbesondere in traditionellen Dateispeicherlösungen wie NAS-Systemen (Network Attached Storage).

Indizierung – Darüber hinaus verwenden Storage-Systeme derzeit Hash-Tree- und B+-Tree-Rechenmethoden für die Verwaltung und Indizierung von Verzeichnissen. Die für die Verwaltung und Indizierung von Verzeichnissen verwendeten Algorithmen neigen dazu, beim Abrufen von Verzeichnissen mit über 100 Millionen Dateien an Effizienz und Leistung einzubüßen.

Zugriff – Bei bestimmten Anwendungsszenarien sorgen die Zugriffsmodi „einmal lesen, oft schreiben“ oder „gemischtes Lesen/Schreiben“ für eine zusätzliche Verschärfung der Leistungsherausforderungen. Gängige Datei-I/O-Prozesse umfassen Operationen wie „Öffnen“, „Suchen“, „Lesen/Schreiben“ und „Schließen“. „Öffnen“ vor „Lesen“ oder „Schreiben“ benötigt die größte Menge an Systemzeit und Ressourcen. Daher führt das System bei Zugriffsmodi mit „gemischtem Lesen/Schreiben“ wiederholte „Öffnen“-Operationen durch. Wenn eine riesige Menge an Operationen gleichzeitig erfolgt, wird ein gewaltiger Teil der Systemressourcen verschwendet, was einen Leistungsverlust zur Folge hat.

Festplatten – Die Schwäche herkömmlicher Festplatten hinsichtlich ihrer Leistung bei IOPS und wahlfreien Lese-/Schreibzugriffen haben Leistungsupgrades von Storage-Systemen verhindert. Infolge mechanischer Einschränkungen liegen die IOPS-Kennzahlen sogar bei leistungsfähigeren Festplatten lediglich im Bereich hunderter wahlfreier Lese-/Schreibzugriffe.2 Bei der Verarbeitung kleiner Dateien ist die Effizienz sogar noch geringer, da die Festplatte konstant an verschiedenen Speicherorten nach Dateien suchen und diese lokalisieren muss.

Leistungsstarke, rein auf Flash-Speicher basierende Lösung von Baidu ABC Storage
Baidu hat sich mit seiner Arbeit im Bereich von Suchtechnik weithin einen Namen gemacht. Mit über 100 Milliarden Seiten und täglich 2000  Petabyte (PB) an gespeicherten Daten und 100 PB an verarbeiteten Daten3 verfügt Baidu über umfangreiche Erfahrungen mit den technischen Herausforderungen, die mit der Speicherung gewaltiger Mengen unstrukturierter kleiner Dateien einhergehen.

Baidu AI Cloud hat versucht, die oben genannten Herausforderungen durch Softwareverbesserungen und auf Intel® Technik basierender Hardware zu lösen.

Abbildung 1: Die Ergebnisse des Leistungsstabilitätstests der Objektspeicherlösung ABC Storage unter Baidu AI Cloud.

Software
Entwickler bauten Baidus leistungsstarke Objektspeicherengine in die neue Lösung ein und schufen so die Voraussetzungen für hervorragende Ergebnisse beim Lebenszyklus-Management von Daten, Datensicherheitsstrategien, der Abfrageeffizienz, der Netzwerk- und RDMA-Unterstützung für die InfiniBand*-Architektur und flexiblen Rechteverwaltungsmechanismen. Darüber hinaus ist die leistungsstarker Datenspeicherengine von ABC Storage durch die Nutzung „flacher“ Objektspeicher-Bereitstellung, hochgradig effizienter Abfragen und Exabyte-Skalierbarkeit in der Lage, Private-Cloud-Nutzern Datenspeicher für riesige Mengen unstrukturierter kleiner Dateien bereitzustellen.

Ein KI-Trainingsprozess besteht aus Datensammlung, Bereinigung und Kennzeichnung, Resizing, Modellierung, Training, Evaluierung und Vorhersage. Bei jedem Schritt muss das Storage-System Lese-, Schreib- und Abfrageoperationen durchführen. Während des Trainings sind die Daten hoher Parallelität und wiederholtem Durchsatz unterworfen, damit ausreichend Daten bereitgestellt werden, um das für Vorgänge mit voller Last zu trainieren.

Baidus Objektspeicherengine löst Leistungsprobleme mit riesigen Dateimengen und bietet die Voraussetzungen dafür, dass Storage-Systeme einen stabilen Leistungsoutput erzielen und die Datennutzungseffizienz von KI-Anwendungen wirkungsvoll steigern können. Unterdessen führt die Engine für bestimmte gemischte Lese-/Schreiboperationen während des Trainings weitere Optimierungen durch, um sicherzustellen, dass die Systemleistung in gemischten Lese-/Schreibszenarien nicht beeinträchtigt wird.

Testergebnisse verschiedener Optimierungen zeigen, dass die Software alleine in der Lage ist, bei einer steigenden Anzahl von Dateien stabile Leistungseigenschaften beizubehalten. Wie in Abbildung 1 gezeigt, fluktuierten der QPS-Wert (Query Per Second) und die Latenzleistung innerhalb eines Bereichs von 5 Prozent,4 während die Dateimenge schrittweise von 100 Millionen auf 8 Milliarden anstieg.

Hardware
Wie oben beschrieben stellt der Einsatz von Festplatten für leistungsstarke Storage-Lösungen einige Herausforderungen dar. SSDs haben praktisch keine Suchzeit oder Rotationslatenz, was im Vergleich zu Festplatten ein höheres IOPS-Leistungsvermögen zur Folge hat. Baidu AI Cloud nutzt für die zentrale Hardware seiner rein auf Flash-Speicher basierenden Datenspeicherlösung ABC Storage eine Kombination aus Intel® Optane™ SSD-Technik und Intel® QLC-3D-NAND-SSD-Technik. Intel Optane SSDs bieten innovative Intel® 3D XPoint™ Speichermedien und verfügen über fortschrittliche Systemspeicher-Controller, Schnittstellen-Hardware und Software-Technik, was geringe Latenz und hohe Stabilität ermöglicht. Die Baidu-Lösung verwendet die folgenden Komponenten:

Intel® Optane™ SSD DC P4800X: Diese SSDs kommen in wichtigen Storage-Systembereichen wie Cache, MDS und Protokollsystemen zum Einsatz. Sie bieten für wahlfreie Lese-/Schreibzugriffe bis zu 550.000 IOPS und weniger als 10 µs Lese-/Schreiblatenz 5 und damit die Voraussetzungen, dass die Lösung in Mehrbenutzer- und von hoher Parallelität gekennzeichneten Szenarien effektiver arbeiten kann. Gleichzeitig sorgt der DWPD-Wert (Drive Writes per Day) für höhere Langlebigkeit und einen besseren wirtschaftlichen Nutzen.

Intel® SSD D5-P4320: Dieses SSDs basieren auf der QLC-Technik und bieten hohe Speicherkapazität. Intels 64-Layer-TLC-3D-NAND-Technik ermöglicht auf einer einzelnen QLC-SSD bis zu 7,68 TB, was die Datenspeicheranforderungen massiver Datenmengen adäquat erfüllt. Darüber hinaus bieten sie in Verbindung mit dem Intel® Xeon® Gold 6142 Prozessor einen IOPS-Wert von bis zu 427000 wahlfreien Lesezugriffen. Sie sind insbesondere geeignet, da sie die WORM-Leistungsanforderungen („Write Once, Read Many“) von Anwendungsszenarien wie dem KI-Training erfüllen. Da in der neuen Lösung verwendete Intel SSD D5-P4320 erfüllt wirksam den Bedarf an hoher Datenspeicherkapazität.

Bei ABC Storage wird jeder Storage-Server mit vier SSDs ausgestattet, was insgesamt eine Dateispeichermenge für bis zu 2 Milliarden 15-KB-Dateien in 30 TB Kapazität bereitstellt. Und was noch wichtiger ist: Das Preis-Leistungs-Verhältnis von Intel® QLC-3D-NAND-SSDs ermöglicht es dieser Kombination aus SSDs, die hohe Leistung für diese Lösung sicherzustellen und gleichzeitig die Gesamtbetriebskosten (TCO) für das System effektiv zu senken. Baidu hat mit seinen Tests gezeigt, dass die leistungsstarke und rein auf Flash-Speicher basierende Lösung von Baidu AI Cloud die Gesamtbetriebskosten um 60 Prozent senken konnte.6

Ergebnisse
Mit Intels Unterstützung führte das Baidu AI Cloud Team eine detaillierte Bewertung und Messung der Leistungseigenschaften ihrer rein auf Flash-Speicher basierenden Storage-Lösung ABC Storage durch. Abbildung 2 zeigt den Benchmark-Testrahmen, der einen Cluster aus fünf Servern umfasst, von denen jeder mit zwei Intel® Xeon® Gold 6142 Prozessoren und 256 GB Arbeitsspeicher ausgestattet ist. Es kamen ein Intel Optane SSD DC P4800X mit 750 GB und vier Intel® SSDs D5-P4320 mit je 7,68 TB zum Einsatz. Das System nutzte ein 40-GbE-Netzwerk als Verbindung zur Rechenplattform.

Die Tests zeigten, dass die Kombination aus Intel® Optane™ SSD-Technik und Intel® 3D-NAND-QLC-Technik die Anforderungen an die Storagesystemleistung, die für KI-Trainingsszenarien erforderlich ist, adäquat erfüllt. Tabelle 1 zeigt die Leistungsergebnisse der grundlegenden Version von ABC Storage.

Abbildung 2. Benchmark-Testrahmen für die rein auf Flash-Speicher basierende Lösung ABC Storage

Tabelle 1: Benchmark-Testergebnisse für die rein auf Flash-Speicher basierende Lösung ABC Storage.4

Zukunftsperspektiven
Als eines der entscheidenden praktischen Ergebnisse der ABC-Strategie von Baidu AI Cloud lieferte die leistungsstarke, rein auf Flash-Speicher basierende Objektspeicherlösung ABC Storage mit ihrer verbesserten Storage-Leistung und -Größe für Private-Cloud-Anwendungsszenarien, wie KI-Training, Big-Data-Analysen und High-Performance-Computing (HPC), starke und zuverlässige Unterstützung.

Intels Produkte und Technik sind entscheidende Faktoren für den Erfolg der Lösung. In Zukunft wollen beide Unternehmen weitere Partnerschaften eingehen, um die Leistung der bestehenden Lösungen zu optimieren und gleichzeitig den Anteil an Intels Produkten und Technik vergrößern. In der Zwischenzeit wollen beide Unternehmen die rein auf Flash-Speicher basierte Objektspeicherlösung auf weitere Anwendungsszenarien ausweiten, um riesige Datenmengen wahrhaftig in eine treibende Kraft zu verwandeln, die die Transformation der Entwicklung von IT-Technik und die Digitalisierung von Unternehmen signifikant voranbringen wird.

Die Vorteile der Lösung von Baidu AI Cloud

  • Die leistungsstarke Datenspeicherengine von ABC Storage bietet eine integrierte Objektspeicherschnittstelle für Anwendungsszenarien wie KI-Training und High-Performance-Computing (HPC) und liefert dadurch selbst bei schnell wachsenden Dateimengen einen stabilen Leistungsoutput.
  • Mit gezielten Optimierungsprozessen hilft die leistungsstarke Datenspeicherengine von ABC Storage Storage-Systemen, ein gutes Leistungsniveau beizubehalten, wo für riesige Dateimengen „Lese-/Schreib“-, WORM- und „gemischte Lese-/Schreib“-Szenarien erforderlich sind.
  • Die Kombination aus Intel® Optane™ SSD- und Intel® QLC-3D-NAND-Technik ermöglicht es der rein auf Flash-Speicher basierenden Objektspeicherlösung ABC Storage, ein hohes Leistungsniveau beizubehalten und gleichzeitig die Gesamtbetriebskosten zu senken.

Informationen über zugehörige Produkte und Lösungen

Skalierbare Intel® Xeon® Prozessorreihe

Mit der skalierbaren Intel® Xeon® Plattform lassen sich nutzbringende Erkenntnisse einfacher gewinnen. Darüber hinaus bietet die Plattform hardwarebasierte Sicherheit und ermöglicht die dynamische Bereitstellung von Diensten.

Weitere Infos

Intel® Optane™ DC SSDs

Intel® Rechenzentrums-SSDs sind für hohe Leistung, Zuverlässigkeit und Langlebigkeit optimiert.

Weitere Infos

Intel® SSDs der DC-Reihe

Intel® Rechenzentrums-SSDs sind für hohe Leistung, Zuverlässigkeit und Langlebigkeit optimiert.

Weitere Infos

Hinweise und Disclaimer

Durch Intel® Technik ermöglichte Funktionsmerkmale und Vorteile hängen von der Systemkonfiguration ab und können entsprechend geeignete Hardware, Software oder die Aktivierung von Diensten erfordern. Die Leistungsmerkmale variieren je nach Systemkonfiguration. Kein Computersystem bietet absolute Sicherheit. Informieren Sie sich beim Systemhersteller oder Einzelhändler oder auf https://www.intel.de. In Leistungstests verwendete Software und Workloads können speziell für die Leistungseigenschaften von Intel® Mikroprozessoren optimiert worden sein. Leistungstests wie SYSmark und MobileMark werden mit spezifischen Computersystemen, Komponenten, Softwareprogrammen, Operationen und Funktionen durchgeführt. Jede Veränderung bei einem dieser Faktoren kann abweichende Ergebnisse zur Folge haben. Für eine umfassende Bewertung Ihrer vorgesehenen Anschaffung, auch im Hinblick auf die Leistung des betreffenden Produkts in Verbindung mit anderen Produkten, sollten Sie zusätzliche Informationen und Leistungstests heranziehen.Ausführlichere Informationen finden Sie unter https://www.intel.de/benchmarks. Die Leistungsergebnisse basieren auf Tests, die zum Zeitpunkt, der in den Konfigurationen angegeben ist, durchgeführt wurden und berücksichtigen möglicherweise nicht alle öffentlich verfügbaren Sicherheitsupdates. Weitere Einzelheiten finden Sie in den veröffentlichten Konfigurationsdaten. Kein Produkt und keine Komponente bieten absolute Sicherheit. // Die beschriebenen Kostensenkungsszenarien sind als Beispiele dafür gedacht, wie ein bestimmtes Produkt mit Intel®-Technik unter den genannten Umständen und in der angegebenen Konfiguration zukünftige Kosten beeinflussen und Einsparungen ermöglichen kann. Die Umstände unterscheiden sich von Fall zu Fall. Intel übernimmt keine Gewähr für Kosten oder Kostensenkungen. // Intel hat keinen Einfluss auf und keine Aufsicht über die Benchmarkdaten Dritter oder die Websites, auf die in diesem Dokument Bezug genommen wird. Besuchen Sie die genannten Websites, um sich davon zu überzeugen, dass die angeführten Benchmarkdaten zutreffen. // Bei einigen Tests wurden die Ergebnisse unter Verwendung interner Analysen oder Architektursimulationen bzw. -modellen von Intel geschätzt oder nachempfunden. Sie dienen nur informatorischen Zwecken. Unterschiede in der Hardware, Software oder Konfiguration des Systems können die tatsächliche Leistung beeinflussen.

Produkt- und Leistungsinformationen

1 Daten laut IDC-Bericht: „Data Age 2025: The Evolution of Data to Life-Critical.“
2 Die Daten sind behelfsweise Schätzungen, die auf folgender Formel basieren: IOPS = 1000 µs/(Suchzeit + Rotationslatenz).
3 Daten laut Produkteinführung von Baidu AI Cloud’: „Baidu AI Cloud ABC Storage’s distributed storage products.“
4 Die Ergebnisse wurden von Baidu AI Cloud zur Verfügung gestellt und basieren auf internen Tests des Unternehmens. Für weitere Informationen wenden Sie sich bitte an Baidu AI Cloud. Für die in Abbildung 3 gezeigten Ergebnisse wurden vier Storage-Knoten konfiguriert, und alle Server wurden mit vier Intel® Xeon® E5-2620 v4 Prozessoren mit 2,10 GHz (mit insgesamt 32 Kernen und 64 Threads), 128 GB DRAM und sieben 4-TB-SATA-SSDs ausgestattet. (Hinweis: Dieser Test wurde primär für die Verifizierung der Software-Lösung konzipiert und nicht mit Kombinationen von Intel® Optane™ SSDs und Intel® QLC-3D-NAND-SSDs konfiguriert) Während des Tests importierte das Team 4K-Dateien, bevor „wahlfreie Lesezugriffe“ mit einem Parallelitätswert von 500 durchgeführt wurden.