Qualitativ hochwertige und große Volumen an Daten sind für Unternehmen entscheidend geworden, um ihre tragende Wettbewerbsfähigkeit im Bereich der künstlichen Intelligenz (KI) zu stärken. Und im Falle des chinesischen Unternehmens Ping An Technology erforscht das Federated-Learning-Technologie-Team Möglichkeiten, wie man mithilfe der Federated-Learning-Methode aus mehreren Quellen mehrdimensionale und qualitativ hochwertigere Daten zusammenfassen kann, um das KI-Modelltraining zu verbessern.
Der Austausch, die Übermittlung und die Zusammenfassung von Daten aus mehreren Quellen werfen jedoch auch komplexe Fragen der Datensicherheit auf, insbesondere in sensiblen Branchen und Sektoren, in denen die Gefahr von Datenverstößen im Blickpunkt steht, wobei sowohl Behörden als auch die allgemeine Öffentlichkeit ihr Augenmerk darauf richten. Dies hat zur Einführung einer Reihe von Gesetzen und Vorschriften im Bereich des Datenschutzes geführt. Ohne eine sichere und vertrauenswürdige Multi-Source-Datenkollaborationslösung würde es sich als schwierig erweisen, diese auf Multi-Source-Daten basierenden Silos zu beseitigen, wodurch die Entwicklung und Einführung des Föderalen Lernens zweifelsohne gehemmt werden würde.
Ein praktischer Ansatz zur Lösung dieses Problems besteht darin, eine vertrauenswürdige Ausführungsumgebung (VAU) auf spezieller Hardware mit Unterstützung hardwaregestützter Sicherheitstechnik zu schaffen, um sensible Daten und Anwendungen vor externem Zugriff und Angriffen zu schützen. Durch die umfassende technische Zusammenarbeit mit Intel führte das Federated-Learning-Team erfolgreich die Intel® Software Guard Extensions (Intel® SGX)-Technik – eine Schlüsselkomponente der VAU-Lösung – in seine Federated-Learning-Lösungen ein. Damit leistet das Federated-Learning-Team Pionierarbeit bei der Implementierung von KI-Training mithilfe einer Multi-Source-Datenkollaborationslösung und erzielte bemerkenswerte Resultate in Bereichen wie Versicherung, Gesundheitswesen, Intelligent Voice und Internet of Vehicles (IoV) mit zahlreichen positiven Rückmeldungen von Benutzern.
„Die Federated-Learning-Technologie beschleunigt den Fortschritt der künstlichen Intelligenz, indem sie zur Gewährleistung der Datensicherheit und des Schutzes der Privatsphäre beiträgt. Die Intel® Software Guard Extensions sind ideal für die Erstellung von hardwarebasierten, vertrauenswürdigen Ausführungsumgebungen in Federated-Learning-Lösungen. Durch Prozessoranweisungen erzeugt die SGX vertrauenswürdige Zonen in verschiedenen Datenquellen für den Datenzugriff. Dies hilft uns, den Trainingseffekt von KI-Modellen mit Multi-Source-Daten durch eine weitere Verbesserung der Datensicherheit zu erhöhen." —Dr. Jianzong Wang, stellvertretender Chefingenieur, Ratsmitglied Ping An Technology, stellvertretender Vorsitzender der Guangdong Society of Artificial Intelligence and Robotics, China Artificial Intelligence Open Source Software Development League
Federated-Learning-Praktiken verleihen der Evolution des KI-Trainings Nachdruck
Ausgereiftere Algorithmen und eine stärkere Rechenleistung machen umfangreiche und qualitativ hochwertige Daten zu einem wichtigen Faktor, der die KI-Leistung beeinflusst. Im Hinblick auf den Einführungsprozess von KI in diversen Branchen haben unzureichende Trainingsdaten jedoch zu glanzlosen Resultaten hinsichtlich des Trainings von KI-Modellen geführt, da Datenquellen, die verschiedenen Geschäftsfeldern und Fachbereichen angehören, voneinander getrennt sind. Normalerweise muss das System Daten integrieren, um Modelle mit Daten aus mehreren Quellen zu trainieren, jedoch garantiert dieser Ansatz nicht die Sicherheit des Datenaustauschs und erhöht das Risiko von Datenlecks.
Da der Datensicherheit und dem Schutz der Privatsphäre immer mehr Aufmerksamkeit geschenkt wird, erhöhen die Regierungen den Schutz solcher Daten durch Gesetze und Vorschriften. So hat die „Guideline for Internet Information Security Protection“, die offiziell im April 2019 in China veröffentlicht wurde, klare Bestimmungen für die Weitergabe und den Transfer personenbezogener Daten und stärkt weitere Maßnahmen für den Schutz personenbezogener information, 1 Im Mai 2019 hat die Cyberspace Administration of China zusammen mit den zuständigen Behörden das „Measures for Data Security Management (Consultation Paper)“ erstellt, welches klare Meinungen über und Anforderungen für die Datenverarbeitung und -auslastung sowie die Überwachung und Verwaltung der Datensicherheit sowie die Verwaltung von Informationen.2
Das KI-Training erfordert daher eine sichere Datenaggregationsmethode, um so die Funktionen der Multi-Source-Datenkollaboration zu verbessern. Das Federated-Learning-Team, das ein Gespür für die Entwicklung von KI- und Big-Data-Technologien hat, erforscht proaktiv die immer ausgereifteren Federated-Learning-Ansätze. Anders als bei herkömmlichen Methoden zur gemeinsamen Datennutzung werden beim Federated-Learning-Ansatz die Daten jedes Knotens für das Training vor Ort aufbewahrt. Es wird also davon ausgegangen, dass jede Datenquelle an der Optimierung des KI-Modells teilnimmt und diese fördert und die Optimierungsergebnisse auf der Grundlage der Gewährleistung des Datenschutzes weitergibt.
Auf der Grundlage dieses Konzepts hat das Federated-Learning-Team jetzt eine Hive-Plattform für Föderales Lernen eingerichtet, um den Benutzern eine One-Stop-Lösung zum Schutz ihrer Daten und ihrer Datensicherheit zu bieten. Bei der Erstellung der Plattform muss die Lösung Probleme beheben, wie beispielsweise den weiteren Ausbau der Sicherheit von internen Multi-Source-Daten, die Bereitstellung einer zuverlässigeren Sicherheitsgarantie für den Zwischenprozess der Optimierung des KI-Modells und die effektive Bewertung des Beitrags jeder Datenquelle zum endgültigen Optimierungsergebnis. Das Federated-Learning-Team und Intel haben mit der Einführung der Intel SGX-Technik eine bessere Lösung für diese Problemstellungen gefunden.
Hardwaregestützte Sicherheitstechnik fördert Föderales Lernen
Bei der Aggregation von Multi-Source-Daten zur Implementierung des KI-Modelltrainings in die Federated-Learning-Methode müssen KI-Modelle oder -Prozessparameter an verschiedenen Datenknoten über das Netzwerk übertragen und ausgetauscht werden. Es ist allgemein bekannt, dass die Sicherheitsrisiken von Daten umso höher sind, je größer die Offenlegung der Daten ist. Unabhängig davon, welche Hardware-Infrastrukturen oder Betriebssysteme in den einzelnen Knoten oder welche Netzwerkgeräte wie etwa Router und Gateways verwendet werden, sie können Sicherheitsrisiken wie beispielsweise Datenlecks und -manipulationen herbeiführen, wenn sie „beschädigt" werden.
Beispielsweise kann ein Hacker Datennachrichten abfangen, indem er einen Sniffer in einem Sender im Netzwerk installiert oder eine Kaltstartattacke anwendet, um die Datenremanenz nach dem Neustart des Servers zu lesen, oder er kann die Daten sogar direkt im Arbeitsspeicher mittels Speicher-Bus-Snooping oder Speicherverfälschungen angreifen. Da eine Reihe von Angriffsmethoden möglich ist, erweist es sich als schwierig, das System zu sichern und einen Bottom-up-Schutz- und -Präventionsmechanismus einzurichten, der sowohl Software und Hardware als auch das Betriebssystem abdeckt. Die Bemühungen, einen solchen Mechanismus zu entwickeln, zehren an den Ressourcen und würden die Gesamtbetriebskosten erhöhen, ohne unbedingt zufriedenstellende Ergebnisse in konkreten Schutzszenarien zu liefern.
Die Erstellung einer VAU-Lösung für vertrauenswürdige Zonen in der Hardware stellt eine bessere Option zur Lösung dieser Probleme dar. Als Schlüsselelement bei der Implementierung dieser Lösung ermöglicht Intel SGX die Schaffung einer vertrauenswürdigen „Enklave" in bestimmter Hardware (wie z. B. im Arbeitsspeicher), wobei die Sicherheitsbegrenzungen von Daten und Anwendungen auf die „Enklave" selbst und den Prozessor beschränkt sind – wie in Abbildung 1 dargestellt. Gleichzeitig ist ihr Betrieb nicht von anderer Hardware oder Software abhängig, was bedeutet, dass Datensicherheit und -schutz unabhängig vom Betriebssystem oder der Hardwarekonfiguration sind, sodass selbst dann, wenn Hardwaretreiber, virtuelle Maschinen oder das Betriebssystem selbst angegriffen und beschädigt werden, Datenlecks wirksamer verhindert werden können.
Abbildung 1: Intel SGX verbessert die Datensicherheit dank vertrauenswürdiger „Enklaven"
Auf der Grundlage der Funktionsmermale der Intel SGX arbeitete das Federated-Learning-Team mit Intel zusammen, um in seiner Federated-Learning-Lösung eine 1+N-Multi-Source-Daten-KI-Modelltrainingsmethode zu entwickeln, die die Bewertungsfragen hinsichtlich der Wirkungsweise von Datensicherheit und Training besser löst.
Die neue 1+N-Lösungsarchitektur ist in Abbildung 2 dargestellt. In der Abbildung wird gezeigt, dass eine zentral gelegene Aggregator-„Enklave" und die an anderen Stellen bereitgestellten N-Edge-„Enklaven" ein Netzwerk bilden. Die „Enklaven" im Aggregator und in den Datenquellensystemen sind allesamt vertrauenswürdige Zonen, die im Arbeitsspeicher durch die von Intel SGX bereitgestellten Prozessoranweisungen erstellt werden.
Abbildung 2: Federated-Learning-Lösung durch Verwendung von Intel SGX
Bei der 1+N-Lösung müssen das zu trainierende und zu optimierende KI-Modell und die zugehörigen Zwischenparameter in einem verschlüsselten Kanal übertragen werden, während die Trainingsdaten, das Klartext-KI-Modell und der KI-Algorithmus in dem Knoten aufbewahrt werden, in dem sich jede Datenquelle befindet. Bei dem Initialisierungsprozess erzeugen die „Enklaven" selbst öffentlich-private Schlüsselpaare, wobei der öffentliche Schlüssel beim Aggregator registriert ist und die privaten Schlüssel in ihren eigenen jeweiligen „Enklaven" gespeichert sind. Wenn das Training begonnen wird, stellt der Aggregator zunächst eine verschlüsselte Verbindung mit der Ziel-„Enklave" her. Der symmetrische, verschlüsselte Schlüssel für diese Verbindung wird durch Aushandlung unter Verwendung des asymmetrischen Algorithmus der öffentlich-privaten Schlüsselpaare bereitgestellt, wodurch ein Man-in-the-Middle-Angriff verhindert werden kann. Nachdem die Verbindung hergestellt wurde, verschlüsselt der Aggregator zunächst das zu trainierende KI-Modell und verschiebt es zu jeder „Enklave", woraufhin jede „Enklave" das Modell entschlüsselt und es an die lokale KI-Trainingsumgebung überträgt, um die lokalen Daten zu trainieren. Nach dem Training gibt die lokale KI-Trainingsumgebung die Zwischenparameter des Trainings an die lokale „Enklave" zurück.
Als Reaktion auf die Unternehmensanforderungen hat das Team Föderales Lernen innoviert: Alle „Enklaven" in jeder lokalen Umgebung sind vertrauenswürdige Agenten für die Föderation, und da der in späteren Phasen angewandte Algorithmus direkt in der „Enklave" ausgeführt werden kann, können die vertrauenswürdigen Agenten zunehmend mehr in der lokalen Umgebung leisten. Als nächstes verschlüsselt die „Enklave" die Zwischenparameter in der verschlüsselten Verbindung und übermittelt sie dann wieder an die Aggregator-„Enklave", die daraufhin die empfangenen Zwischenparameter schnell aggregiert und das KI-Modell entsprechend den Ergebnissen optimiert und anpasst, bevor sie in die nächste Iteration übergeht.
Da die oben genannten Prozesse alle in „Enklaven" implementiert sind, werden sowohl das KI-Modell als auch die Zwischenparameter in den verschlüsselten Kanälen und den „Enklaven" während der gesamten Schleifendauer und Iteration der Lösung ohne jeglichen Kontakt mit externer Hardware oder Software weitergeleitet und ausgetauscht, wodurch eine sicherere und vertrauenswürdigere „interne Schleife" entsteht. Prozessoren mit Intel® Architektur bieten leistungsstarke Rechenunterstützung für die Erstellung der „Enklave", die Einrichtung verschlüsselter Kanäle und den Austausch und die Aggregation von Zwischenparametern.
Um den Beitrag jedes Knotens auf den Trainingseffekt zu bewerten, können bei der 1+N-Lösung zunächst alle Knoten trainiert werden, um die Wirkung des gesamten Trainingsvolumens zu erhalten, wenn N Datenquellen vorhanden sind. Anschließend werden die N-1-Knoten mit Ausnahme des zu evaluierenden Knotens separat trainiert (z. B. werden bei der Evaluierung von Knoten 1 die Knoten 2 bis N trainiert) und nach dem Erhalten von Modellen mit unterschiedlichen Trainingseffekten berechnet das System den „Beitragskoeffizienten" jedes Datenknotens im Rahmen des Federated Learnings, um eine genauere Bewertung des Beitrags jedes Datenknotens hinsichtlich des gemeinsamen Trainings der KI zu erhalten und die Lösung entsprechend anzupassen. Diese Algorithmen und die Ablaufplanung können sich auf die Leistung des Federated Learnings auswirken und es muss noch bewiesen werden, ob sie in der Praxis funktionieren. Was die weitere Nutzung der auf Intel® Technik basierenden „Enklave" betrifft, so kann durchaus noch vieles erforscht und entdeckt werden.
Ergebnisse aus führenden Federated-Learning-Praktitken
Als Beispiel betrachten wir nun einmal den Einsatz des Federated Learnings in der Versicherungsbranche. Ohne den Einsatz von Federated Learning würde der Verkäufer den Prämienbetrag auf der Grundlage einer Police und nur auf Basis grundlegender Informationen wie Alter und Geschlecht des Kunden festlegen. Im Zuge der stetigen Entwicklung der Informationsgesellschaft haben jedoch die Menge und Eigenschaften der zur Verfügung stehenden Benutzerdaten erheblich zugenommen. Beispielsweise wird sich im Hinblick auf die Krankenversicherung, die Richtigkeit der Beurteilung der Gesundheitsrisiken des Versicherten verbessern, wenn das Unternehmenssystem KI-gestützte Vorhersagen unter Verwendung großer Datenmengen, einschließlich Krankenakten und Daten über die familiäre Vorgeschichte, vornehmen kann, um eine detailliertere Kategorisierung der gesundheitlichen Bewertung zu erhalten.
Allerdings sind Krankenakten und die Krankengeschichte jene Art von Daten, die von Gesundheitseinrichtungen absolut vertraulich behandelt werden müssen. Es ist nicht nur unmöglich, solche Daten offenzulegen, vielmehr sollte das Sicherheitsniveau zu ihrem Schutz erhöht werden. Dank der Einführung einer Federated-Learning-Lösung können Versicherungsgesellschaften jetzt KI-Training im Bereich der Versicherungstarifmodelle durchführen, ohne die Benutzerdaten einzusehen. Nach ersten Rückmeldungen aus einigen frühzeitigen, damit zusammenhängenden Projekten kann die Federated-Learning-1+N-Lösung die Einwirkung individuell abgestimmter Versicherungstarife erheblich verbessern.
Ein Blick in die Zukunft
Da der Stellenwert von Daten zunimmt und es in einigen Branchen an effektivem Datenschutz mangelt, wird das Phänomen Datensilos immer mehr zu einem Problem. Als Antwort auf einige dieser Datenherausforderungen im Bereich der KI-Entwicklung hat Dr. Jianzong Wang, ein Vorreiter auf dem Gebiet des Federated Learnings in China und Leiter des Federated-Learning-Technologie-Teams von Ping An Technology, sein Team beauftragt, die Datensicherheit und die vertrauenswürdige Zusammenarbeit in Multi-Datenquellen-Umgebungen aktiv zu untersuchen. Das Team verwendet fortschrittliche Federated-Learning-Methoden zur Bewältigung von Datenherausforderungen und hat einen umfangreichen Erfahrungsschatz gesammelt, um auf diesem Gebiet Durchbrüche zu erzielen. Durch die Bereitstellung eines zweckmäßigen Bezugs hinsichtlich des Einsatzes von Federated Learning in verschiedenen Wirtschaftszweigen konnten sie eine Menge Erfolge verzeichnen.
Gegenwärtig verwendet das Team die Federated-Learning-Methode, um ein polymorphes und Multitasking-fähiges Lernmodell im Bereich der Finanzbranche zu entwickeln, das einer strengen Kontrolle der Daten unterliegt. Dieses Modell wurde entwickelt, um den Anforderungen von Banken und Finanzinstitutionen im Rahmen verschiedener Anwendungsszenarien wie Risikoabschätzung, Geldwäschebekämpfung, Anlageberatung, Anlageforschung, Kredit, Versicherung und Finanzaufsicht gerecht zu werden. Durch die Entwicklung dieses Modells möchte das Team den Benutzern helfen, die KI-Funktionen zu nutzen, um effektivere Risikokontroll- und Marketingmodelle zu schaffen und potenzielle Finanzrisiken wie Kreditkartenbetrug, überfällige Kredite, Finanzbetrug usw. zu identifizieren und so die betrieblichen Risiken für Finanzunternehmen zu reduzieren. Gleichzeitig kann die Federated-Learning-Methode den Benutzern dabei helfen, horizontale Daten für die Erstellung von Benutzerprofilen zu nutzen, um so die Vertriebskanäle zu erweitern sowie Marketingstrategien zu optimieren und bietet somit ein intelligentes Modul zur Verbesserung der Vertriebskapazitäten.
In Zukunft wird das Federated-Learning-Team die technologische Zusammenarbeit mit Intel weiter vertiefen, um den sicheren Betrieb und die effiziente Umwandlung von Datenressourcen im Bereich Federated Learning mit einer stetig wachsenden Anzahl von fortschrittlichen Technologien voranzutreiben. Und sie werden mit noch mehr Unternehmen und Institutionen zusammenarbeiten, um Datenbarrieren zu beseitigen und die rasante Entwicklung und den Einsatz von Federated Learning in allen Lebensbereichen zu fördern.
Vorteile der Lösung des Federated-Learning-Teams:
- Durch Prozessoranweisungen schafft Intel SGX Arbeitsspeicher-„Enklaven", die die Datensicherheit an jedem Knoten des Federrated Learnings für den Austausch und die Übertragung von Zwischenparametern besser gewährleisten. Dies trägt dazu bei, interne und externe Angriffe zu verhindern und bietet eine zuverlässigere Sicherheit für die Implementierung und Erforschung Föderalen Lernens in einer Multi-Source-Datenumgebung.
- Die 1+N-Federated-Learning-Lösung mit integrierter Intel SGX hilft dabei, den Datenbeitrag jedes Knotens bezüglich des KI-Modelltrainings genau zu bewerten, und erleichtert dem Benutzer die Anpassung der Lösung.