Besser zusammen: datenschutzgerechtes maschinelles Lernen
Mit Intel® SGX und Intel® DL Boost

Auf einen Blick

  • Datenschutzgerechtes maschinelles Lernen (Privacy-Preserving Machine Learning (PPML) ermöglicht es Organisationen, leistungsstarke KI-Techniken weiterhin zu erforschen, während sie daran arbeiten, die Sicherheitsrisiken zu minimieren, die mit großen Mengen sensibler Daten verbunden sind.

  • Die Ant Group und Intel setzen die PPML-Lösung gemeinsam um und verifizieren sie. Sie werden weiterhin die besten Praktiken im Bereich KI und Datensicherheit erforschen.

  • Klicken Sie hier, um den vollständigen Blog herunterzuladen

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Ant Group: Zongmin Gu, Hongliang Tian, Qing Li, Chunyang Hui

Intel: Qiyuan Gong, Dongjie Shi, Wesley Du, Yabai Hu, Jack Chen, Yuan Wu, Ban Hsu

Einleitung

Maschinelles Lernen (ML) und Deep Learning (DL) sind zunehmend für viele realen Anwendungen wichtig. ML- und DL-Modelle werden zuerst auf bekannten Daten trainiert und dann eingesetzt, um neue Daten zu interpretieren, einschließlich der Klassifizierung von Bildern und der Empfehlung von Inhalten. Im Allgemeinen führen erhöhte Daten zu einem erstklassigen ML-/DL-Modell. Allerdings führt die Stapelung riesiger Datenmengen auch inhärente Datenschutz-, Sicherheits- und Regulierungsrisiken mit sich.

Datenschutzgerechtes maschinelles Lernen (PPML) hilft bei der Bewältigung dieser Risiken. Mit Techniken wie z. B. Kryptografie-Differential-Datenschutz und Hardwaretechnik, soll PPML die Privatsphäre sensibler Benutzerdaten und des geschulten Modells schützen, während sie ML-Aufgaben durchführen.

Die Ant Group hat gemeinsam mit Intel eine PPML-Plattform auf der Basis von Intel® Software Guard Extensions (Intel® SGX) und Occlum, dem speichersicheren Multiprozess-Bibliotheks-Betriebssystem der Ant Group für Intel SGX, entwickelt. Dieser Blog vermittelt einen Überblick über die Lösung, die auf Analytics Zoo läuft. Wir zeigen auch die Leistungsvorteile der Lösung, wenn wir Intel® Deep Learning Boost (Intel® DL Boost) auf skalierbaren Intel® Xeon® Prozessoren der 3. Generation beschleunigen.

Intel® SGX und Occlum

Intel® SGX ist Intels Trusted Execution Environment (TEE), die hardwarebasierte Speicherverschlüsselung bietet, die den spezifischen Anwendungscode und Daten im Arbeitsspeicher isoliert. Mit Intel® SGX kann Programmcode von Anwendungen eigene, als Enklaven bezeichnete Speicherbereiche belegen, die vor Prozessen, die auf höherer Privilegierungsstufe ausgeführt werden, geschützt sind. (Siehe Abbildung 1.)

Abbildung 1. Erhöhter Schutz durch Intel® SGX

Intel® SGX ist über homomorphe Verschlüsselung und differenzierte Privatsphäre hinausgegangen und hilft dabei Daten vor Softwareangriffen zu schützen, selbst wenn das Betriebssystem, die Treiber, BIOS, die Verwaltung virtueller Maschinen oder das Systemverwaltungsmodell gefährdet sind. Dadurch kann Intel® SGX dazu beitragen, den Schutz sensibler Daten und Schlüssel zu erhöhen, selbst wenn ein Angreifer die volle Kontrolle über die Plattform hat. Der skalierbare Intel® Xeon® Prozessor der 3. Generation ist mit vertrauenswürdigen „Enklaven“ von bis zu 512 GB pro CPU verfügbar, wodurch Intel® SGX eine hervorragende Grundlage für PPML-Lösungen ermöglichen kann.

Die Ant Group, die 2014 offiziell gegründet wurde, dient über einer Milliarde Benutzern und ist eines der weltweit führenden FinTech-Unternehmen. Die Ant Group ist ein aktiver Explorer in PPML und hat ein Openm Source Projekt namens Occlum, ein speichersicheres Multiprozess-Bibliotheks-Betriebssystem (LibOS) für Intel® SGX initiiert. Mit Occkum können ML-Workloads und andere auf Intel® SGX mit minimalen bis gar keinen Modifikationen des Quellcodes ausgeführt werden, wodurch die Vertraulichkeit und Integrität von Benutzerdaten transparent geschützt werden. Abbildung 2 zeigt die Occlum-Architektur für Intel® SGX.

Abbildung 2. Occlum-Architektur für Intel® SGX (Bildquelle: Occlum · GitHub)

End-to-End-PPML-Lösung auf Basis von Analytics Zoo

Analytics Zoo ist eine einheitliche Datenanalyse- und KI-Plattform für verteilte TensorFlow, Keras und PyTorch auf Apache Spark/Flink und Ray. Mit Analytics Zoo können Analyse-Frameworks, ML-/DL-Frameworks und Python-Bibliotheken als integriertes Stück im Occlum LibOS auf geschützte Weise ausgeführt werden. Analytics Zoo bietet auch sicheren Datenzugriff, sicheren Farbverlauf und Parameterverwaltung und andere Sicherheitsfunktionen, die dazu beitragen, PPML-Anwendungsfälle wie föderative Lernen zu ermöglichen. Abbildung 3 illustriert die Analytics Zoo PPML End-to-End-Lösung.

Abbildung 3: PPML End-to-End-Lösung für sicheres verteiltes Computing in den Bereichen Finanzdienstleistungen, Gesundheitswesen, Cloud-Dienste und andere Anwendungen

Mit der Analytics Zoo PPML-Plattform hat die Ant Group mit Intel zusammengearbeitet, um eine sicherere, End-to-End und verteilte Inferenz-Service-Pipeline zu entwickeln (Abbildung 4). Wir haben die Inferenz-Service-Pipeline mit Analytics Zoo Cluster Serving entwickelt, eine leicht verteilte, Echtzeit-dienende Lösung, die eine Vielzahl von Deep Learning-Modellen unterstützt, einschließlich TensorFlow, PyTorch, Caffe, BigDL und OpenVINO TM-Modellen. Analytics Zoo Cluster Serving-Komponenten umfassen ein Web-Front-End; Redis, der In-Memory-Datenstrukturspeicher und Inferenz-Engine wie Intel® Optimierungen für TensorFlow oder Intel® Distribution des OpenVINOTMToolkit. Komponenten umfassen auch verteilte Streaming-Frameworks wie z. B. Apache Flink.

Die Inferenz-Engine und Streaming-Frameworks laufen auf Occlum und in Intel® SGX-Enklaven. Das Web-Front-End und Redis werden vom Transport Security Layer (TLS) Protokoll verschlüsselt. Infolgedessen sind die Daten in der Inferenz-Pipeline, einschließlich der Benutzerdaten und des Modells, mehr geschützt, egal ob im Verkaufsraum, auf dem Transportweg oder im Einsatz. 

Abbildung 4: Inferenz-Service-Pipeline

Besser zusammen: End-to-end-PPML-Lösung beschleunigt durch Intel® DL Boost

Die Lösung implementiert eine End-to-End-Inferenz-Pipeline wie folgt:

  1. Die RESTful http APIs erhalten Benutzereingaben und die Analytics Zoo pub/sub APIs füttern die Benutzereingaben in eine Eingabewarteschlange, die von Redis verwaltet wird. Benutzerdaten werden durch Verschlüsselung geschützt.
  2. Analytics Zoo verbraucht die Benutzereingaben aus der Eingabewarteschlange. Sie führt Inferenz mit einer Inferenz-Engine auf einem verteilten Streaming-Framework wie Apache Flink durch. Die Inferenz-Engine und das verteilte Streaming-Framework werden von Intel® SGX mit Occlum geschützt. Die Intel® oneAPI Deep Neural Network Library (oneDNN) nutzt Intel® DL Boost mit INT8, was die Leistung der verteilten Inferenz-Pipeline erhöht.
  3. Analytics Zoo sammelt die Inferenz-Ausgabe aus der verteilten Umgebung, bevor Sie sie zurück an die von Redis verwaltete Ausgabewarteschlange senden. Dann verwendet die Lösung die RESTful http APIs, um die Inferenz-Ergebnisse als Vorhersagen an den Benutzer zurückzugeben. Daten in der Ausgabewarteschlange und die http-Kommunikation werden verschlüsselt.
     

Leistungsanalyse

Intel und Ant Group validierten die Leistung der Analytics Zoo PPML-Lösung auf einem System mit skalierbaren Intel® Xeon® Prozessoren der 3. Generation und anderen Technologien, die in Tabelle 1 angezeigt werden. 

Abbildung 5 zeigt die Ergebnisse unserer Tests. Wenn die Inferenz-Lösung durch Intel® SGX geschützt ist, erlebt die ResNet50-Inferenz-Pipeline einen geringen Verlust des Durchsatzes, im Vergleich zu einer Inferenz-Pipeline, die nicht durch Intel® SGX geschützt ist. Inzwischen zeigt die Intel® SGX geschützte Inferenz-Pipeline eine 2-fache Zunahme des Durchsatzes nach Anwendung des Intel® DL Boost mit INT8. 

Abbildung 5: Leistungsstarke Sicherheitsfähigkeiten mit Intel® SGX, Intel® DL Boost und skalierbaren Intel® Xeon® Prozessoren der 3. Generation

Aufbauend auf Intel® SGX übernimmt die Analytics Zoo PPML-Lösung die Vorzüge einer vertrauenswürdigen Ausführungsumgebung oder TEE. Im Vergleich zu anderen Datensicherheitslösungen bietet sie eine hervorragende Leistung auf Sicherheitsebene und Datennutzungsebene, mit nur einer geringen Auswirkung auf die Leistung im Vergleich zu einfachem Text. Intel DL Boost und oneDNN steigern die Leistung für die Analytics Zoo PPML-Inferenzlösung weiter. Tabelle 2 fasst die Stärken der Lösung (TEE) im Vergleich zur homomorphen Verschlüsselung (HE), differenzierten Privatsphäre (DP), sicheren Mehrparteienberechnung (MPC) und einfachen Text zusammen.  

Tabelle 2: Vergleich der Analytics Zoo PPML-Lösung (TEE) zu anderen Konzepten

Zusammenfassung

In der zunehmend komplexen rechtlichen und regulatorischen Umgebung ist es für Unternehmen wichtiger als je zuvor, den Datenschutz der Kunden zu sichern. PPML ermöglicht es Organisationen, leistungsstarke KI-Techniken weiterhin zu erforschen, während sie daran arbeiten, die Sicherheitsrisiken zu minimieren, die mit großen Mengen sensibler Daten verbunden sind.

Analytics Zoo PPML, das mit Occlum, Intel® SGX, Intel® DL Boost und Analytics Zoo entwickelt wurde, etabliert eine Lösungsplattform, um die Datensicherheit und Leistung für große Daten-KI-Workloads zu gewährleisten. Die Ant Group und Intel setzen die PPML-Lösung gemeinsam um und verifizieren sie. Sie werden weiterhin die besten Praktiken im Bereich KI und Datensicherheit erforschen.

Weitere Informationen

 

Testkonfigurationen:

Systemkonfiguration: 2 Knoten, Intel® Xeon® Platinum 8369B Prozessor, 2 Sockel, 32 Kerne pro Sockel, HT On, Turbo ON, Gesamtspeicher 1024 GB (16 Slots/64 GB/3200 MHz), EPC 512 GB, SGX DCAP Treiber 1.36.2, Microcode: 0x8d05a260, Ubuntu 18.04.4 LTS, 4.15.0-112-generic kernel. Getestet von Intel am 20.3.2021.

Software-Konfiguration: LibOS Occlum 0.19.1, Flink 1.10.1, Redis 0.6.9, OpenJDK 11.0.10, Python 3.6.9

Workload-Konfiguration: Modell: Resnet50, Deep Learning Framework: Analytics Zoo 0.9.0, OpenVINO TM 2020R2, Datensatz: Imagenet, BS=16 pro Instanz, 16 Instanzen/2-Sockel, Datentyp: FP32/INT8

Alle Leistungsdaten werden in Laborumgebung getestet.
 

Disclaimer/Rechtliche Hinweise

Die Leistung variiert je nach Verwendung, Konfiguration und anderen Faktoren. Weitere Informationen siehe www.intel.com/PerformanceIndex
Die Leistungsergebnisse beruhen auf Tests mit Stand der angegebenen Konfiguration und spiegelt möglicherweise nicht alle öffentlich erhältlichen Updates wider. Weitere Konfigurationsdetails siehe Backup. Kein Produkt und keine Komponente bieten absolute Sicherheit.
© Intel Corporation. Intel, das Intel Logo und andere Intel Markenbezeichnungen sind Marken der Intel Corporation oder ihrer Tochtergesellschaften. Andere Marken oder Produktnamen sind Eigentum der jeweiligen Inhaber.