Was sind CNNs und Deep Learning
Ein Convolutional Neural Network ist eine Art von Deep Learning-Algorithmus, der am häufigsten zur Analyse und zum Lernen visueller Merkmale aus großen Datenmengen eingesetzt wird. CNNs werden zwar in erster Linie für bildbezogene KI-Anwendungen eingesetzt, können aber auch für andere KI-Aufgaben verwendet werden, z. B. für die Verarbeitung natürlicher Sprache und in Empfehlungsmaschinen.
KI, maschinelles Lernen und Deep Learning
Bevor Sie tiefer in die Funktionsweise von CNNs eintauchen, ist es wichtig zu verstehen, wie diese Deep Learning-Algorithmen mit dem breiteren Feld der KI und den Unterschieden zwischen den allgemein verwendeten Schlüsselbegriffen der KI zusammenhängen.
- Künstliche Intelligenz: Der Bereich der Informatik, der sich mit intelligenten Computerprogrammen beschäftigt, die erkennen, denken, handeln und sich anpassen können.
- Maschinelles Lernen: Ein Teilbereich der KI, bei dem Algorithmen ihre Leistung mit der Zeit verbessern können, wenn sie mehr Daten erhalten.
- Neuronales Netzwerk: Eine Reihe von Algorithmen, die als Verfahren des maschinellen Lernens eingesetzt werden, um Muster und Beziehungen in großen Datenmengen zu erkennen. Neuronale Netze verwenden eine logische Struktur, die vom menschlichen Gehirn inspiriert ist, und bilden die Grundlage für Deep Learning-Algorithmen.
- Deep Learning: Ein Teilbereich des maschinellen Lernens, bei dem mehrschichtige neuronale Netze aus großen Datenmengen lernen.
Wie funktionieren CNNs?
Convolutional Neural Networks arbeiten, indem sie große Datenmengen in einem Gitterformat aufnehmen und verarbeiten und dann wichtige granulare Merkmale für die Klassifizierung und Erkennung extrahieren. CNNs bestehen in der Regel aus drei Arten von Schichten: einer Faltungsschicht, einer Pooling-Schicht und einer vollständig vernetzten Schicht. Jede Schicht dient einem anderen Zweck, führt eine Aufgabe für die aufgenommenen Daten aus und lernt immer komplexere Dinge.
CNNs für Videoanalyse
Um die Funktionsweise von CNNs besser zu verstehen, sehen wir uns ein Beispiel für CNNs an, die für die Videoanalyse verwendet werden, ein Prozess, bei dem CNN-basierte Computervision-Modelle aufgenommene Videos analysieren und verwertbare Erkenntnisse gewinnen. Computervision ist ein Teilbereich des tiefen und maschinellen Lernens, der Kameras, Edge- oder Cloud-basiertes Computing, Software, Deep Learning und CNNs kombiniert, um neuronale Netzwerke zu bilden, die Systeme bei der Bildverarbeitung und -analyse steuern. Einmal vollständig trainiert, können Computervision-Modelle Objekte erkennen und erfassen und sogar Bewegungen verfolgen.
Für dieses Beispiel der Videoanalyse nehmen wir an, dass die Eingabedaten eine Reihe von Millionen von Bildern von Autos sind.
- Faltungsschichten wenden Filter auf die Eingabedaten an und lernen Merkmalserkennungen. In der Regel gibt es mehrere Faltungsschichten, die über Pooling-Schichten verbunden sind. Die ersten Faltungsschichten extrahieren allgemeine oder niedrige Merkmale wie Linien und Kanten, während die späteren Schichten feinere Details oder hohe Merkmale wie Autoscheinwerfer oder Reifen lernen.
- Pooling-Schichten verringern die Größe der Faltungsmerkmale, um die Rechenkosten zu senken.
- Vollständig vernetzte Schichten lernen globale Muster auf der Grundlage der hochrangigen Merkmale, die von den Faltungsschichten und den Pooling-Schichten ausgegeben werden, und erzeugen die globalen Muster für Autos. Nachdem die Eingabedaten die vollständig vernetzte Schicht durchlaufen haben, aktiviert die letzte Schicht das Modell, und das neuronale Netz gibt seine Vorhersagen ab.
Wie werden CNNs entwickelt?
CNNs sind von entscheidender Bedeutung für Deep Learning und ermöglichen vielfältige Anwendungsfälle in allen Branchen und auf der ganzen Welt. Aber um ihre Wirkung wirklich zu verstehen, muss man wissen, wie sie entwickelt werden. CNN-Entwicklung ist ein zeitaufwändiger und komplexer dreistufiger Prozess, der Schulung und Optimierung und Inferenz umfasst. Intel arbeitet direkt mit Entwicklern und Datenwissenschaftlern zusammen, um neue Wege zu finden, diesen Prozess zu straffen und zu beschleunigen, damit neue Lösungen schneller und einfacher in Betrieb genommen werden können.
Schulung
Schulung von neuronalen Netzwerken ist in der Regel der zeitaufwändigste und anspruchsvollste Teil der Entwicklung von CNNs für Deep Learning In der Phase des überwachten Lernens bringen die Entwickler dem Netz bei, wie es eine bestimmte Aufgabe, z. B. die Klassifizierung von Bildern, ausführen soll. Dabei wird ein großer Datensatz mit Tausenden oder Millionen von Bildern gesammelt, die Bilder werden in das Netz eingespeist, und das Netz kann vorhersagen, was das Bild darstellt. Wenn die Vorhersage falsch ist, müssen die Neuronen auf die richtige Antwort aktualisiert werden, damit künftige Vorhersagen für dasselbe Bild genau sind. Dieser Prozess wird so lange fortgesetzt, bis der Entwickler mit der Vorhersagegenauigkeit des neuronalen Netzes zufrieden ist. Intel hat jedoch Toolkit entwickelt, um diesen Prozess drastisch zu verkürzen – das Intel® oneAPI DL Frame Developer Toolkit. Es bietet bereits optimierte Bausteine, um den Entwurf, das Training und die Validierung neuronaler Netze zu rationalisieren.
Optimierung
Viele Entwickler optimieren das neuronale Netz, ohne zu wissen, dass es sich dabei um eine Entwicklungsphase handelt, die als Optimierung bezeichnet wird. Wenn sie richtig durchgeführt wird, kann die Optimierung das Netzwerkmodell drastisch vereinfachen und die Inferenzleistung verbessern. Das Intel® Distribution des OpenVINO™ Toolkit ermöglicht Entwicklern die Konvertierung und Optimierung ihrer neuronalen Netzwerkmodelle, die mit gängigen Frameworks wie TensorFlow, PyTorch und Caffe entwickelt wurden. Das im Toolkit enthaltene Tool zur Optimierung nach dem Training hilft dabei, die Modellgröße zu verringern und gleichzeitig die Latenzzeit zu verbessern, ohne die Genauigkeit zu beeinträchtigen und ohne erneutes Training.
Inferenz
Nachdem ein neuronales Netzwerk trainiert und optimiert wurde, wird es als Modell eingesetzt, um Inferenzen auszuführen, d. h. neue Eingaben zu klassifizieren, zu erkennen und zu verarbeiten und neue Prognosen zu erstellen. Mit der Intel® Distribution des OpenVINO™ Toolkits Inferenzmaschine können Entwickler die Leistung optimieren, indem sie das optimierte Netzwerk kompilieren und Inferenzoperationen auf bestimmten Geräten verwalten. Außerdem erfolgt eine automatische Optimierung durch Geräteerkennung, Lastausgleich und Inferenzparallelität über CPU, GPU und andere Intel®-Hardwaregeräte hinweg. Sehen Sie sich die Leistungs-Benchmark-Ergebnisse der Intel® Distribution des OpenVINO™ Toolkits an.
Deep Learning und CNNs werden auch in Zukunft zu den leistungsfähigsten KI-Tools für Entwickler und Unternehmen gehören.
Globale Nutzung von CNNs, Deep Learning und Computervision
Von Automobilherstellern und Stadtverwaltungen bis hin zu Flughäfen und Einzelhandelsgeschäften – Unternehmen aller Branchen nutzen Computervision-Modelle auf unterschiedlichste Weise. Die Zahl der Anwendungsfälle für Deep Learning-basierte Computervision wird nur zunehmen, da die Compute-Technologie weiter voranschreitet und KI zu geringeren Kosten beschleunigt werden kann. Im Folgenden werden einige gängige Einsatzmöglichkeiten von CNNs, Deep Learning und Computervision in der ganzen Welt vorgestellt.
Industrie: Fehlererkennung
Die manuelle Fehlererkennung in der industriellen Fertigung ist teuer, anfällig für menschliche Fehler und wird in gefährlichen oder rauen Umgebungen durchgeführt, für die sich nur schwer qualifizierte Prüfer finden lassen. Aus diesem Grund beginnen einige Hersteller damit, den Einsatz von Deep Learning, Inferenz, maschinellem Sehen und Computervision-Technologie zu prüfen, um die Fehlererkennung an Montagelinien zu automatisieren.
So ist beispielsweise das Lichtbogenschweißen mit Robotern für die moderne Schwermaschinenfertigung unverzichtbar, aber anfällig für Defekte wie poröse Schweißnähte. Poröse Schweißnähte führen zu Schwachstellen, die einer Prüfung nicht standhalten, und die Schweißnähte müssen unter Umständen nachgearbeitet oder Materialien ganz verschrottet werden. Um dieses fortwährende Problem zu lösen, hat Intel eine automatisierte Lösung zur Erkennung von Schweißnahtfehlern entwickelt, die auf dem EOS-Vision-System von ADLINK mit dem ADLINK Edge IoT Software Stack und dem Intel® Distribution des OpenVINO™ Toolkit und dessen Handlungserkennungsmodell basiert. Das Kernstück der Lösung ist ein auf einem neuronalen Netzwerk basierendes KI-Aktionserkennungsmodell, das an Schweißnähten mit und ohne Porositätsfehler trainiert wurde. Es erkennt Porositätsdefekte nahezu in Echtzeit, sodass sofort darauf reagiert werden kann. Der Einsatz dieser Lösung kann den Herstellern helfen, Verzögerungen, Ausschuss und Kosten zu reduzieren und gleichzeitig die Produktivität zu steigern.1
Arbeitssicherheit: PSA-Erkennung
In Branchen mit erhöhtem Verletzungsrisiko, wie z. B. im Baugewerbe, kann die Bedeutung des Tragens von persönlicher Schutzausrüstung (PSA) – Schutzhelme, Spezialschuhe, Schutzwesten, Schutzbrillen und Klettergurte – gar nicht hoch genug eingeschätzt werden. Für Bauleiter ist es oft schwierig, die Einhaltung der PSA-Vorschriften bei allen Mitarbeitern zu überprüfen. Durch das Trainieren eines CNN Deep Learning-Modells für die Objekterkennung können Entwickler Computervision-Technologien in die Lage versetzen, zu erkennen und zu bestimmen, ob die Arbeiter ihre PSA-Vorschriften einhalten.
Das Modul SecurOS Helmet Detection von Intelligent Security Systems (ISS) hilft Unternehmen, sicherere Arbeitsplätze für ihre Mitarbeiter zu schaffen. Es verwendet neuronale Netzwerkalgorithmen, das Intel® Distribution des OpenVINO™ Toolkits und Computervision-Technologien, um zu erkennen, ob die Mitarbeiter ihre Schutzhelme oder Schutzkappen tragen. Wenn die PSA nicht erkannt wird, sendet die Lösung nahezu in Echtzeit Warnmeldungen, um die Vorgesetzten über die Nichteinhaltung der Vorschriften zu informieren.
Intelligente und sichere Städte: Verkehrsüberwachung und Sicherheit
Die Sicherheit der Bürger und Fahrgäste hat für die Stadtverwaltung und die Verantwortlichen des öffentlichen Nahverkehrs stets höchste Priorität.
Der Einsatz von Deep Learning-basierten Videosystemen kann zusätzliche Details liefern, die die Sicherheit auf die nächste Stufe heben. Bei der Verwaltung des Verkehrs in Großstädten mit detaillierteren Informationen können Verkehrsbeamte beispielsweise Lastwagen, die gefährliche Stoffe transportieren, verfolgen und sie von überlasteten Gebieten mit hoher Bevölkerungsdichte wegleiten.
Eine weitere Möglichkeit, wie intelligente Städte die öffentliche Sicherheit verbessern und gleichzeitig die Nachhaltigkeit erhöhen, ist die Reduzierung von Verkehrsstaus. Die taiwanesische Großstadt Taipeh hat vor kurzem eine Lösung zur Verkehrssteuerung eingeführt, mit der die Verkehrsüberlastung um 10 bis 15 Prozent verringert werden konnte.2 Die intelligente Lösung für Verkehrssignale ermöglicht die visuelle maschinelle Datenerfassung und -auswertung am Edge – innerhalb der Verkehrssignale -, um Erkenntnisse über den Verkehr in Echtzeit zu gewinnen und die Infrastrukturkosten zu senken. Die mit der Intel® Distribution des OpenVINO™ Toolkits optimierte Lösung verwendet einen eingebetteten Intel® Pentium® Prozessor für Workloads im Bereich des maschinellen Sehens. Da die Inferenz in den Verkehrssignalgebern stattfindet, war außerdem weniger Netzwerkinfrastruktur erforderlich, wodurch das Verkehrsbüro der Stadt die Kosten für die Netzwerkkommunikation um 85 Prozent senken konnte.
Einzelhandel: Lagerbestandsüberwachung
Die Kunden von heute haben hohe Erwartungen, wenn es darum geht, die gewünschten Produkte zu finden und zu kaufen. Geringe Lagerbestände bedeuten Umsatzeinbußen und unzufriedene Kunden. In der Regel wird der Lagerbestand manuell verwaltet – eine zeitaufwändige Aufgabe, die mit menschlichen Fehlern behaftet ist. Die Automatisierung der Regalinspektion mit Echtzeit-Regalüberwachung durch KI und Computervision kann die Bestandsverwaltung schneller und genauer machen.
Ein von Intel unterstützter Lösungsanbieter nutzt Deep Learning und Computervision für seine hybride Lösung zur Bestandsüberwachung im Einzelhandel. Die Lösung nutzt tiefe neuronale Netzwerke, die durch das Intel® Distribution des OpenVINO™ Toolkit und Intel® DevCloud for the Edge optimiert wurden, um die Produkterkennung auf SKU-Ebene über fest installierte Kameras durchzuführen. Die Edge-Inferenzierung wird von einem skalierbaren Intel® Xeon® Prozessor durchgeführt, und ein leichter PC dient als Gateway. Durch die bedarfsgerechte Erkennung und Benachrichtigung nahezu in Echtzeit ermöglicht die Lösung Einzelhändlern eine beschleunigte Bestandsüberwachung mit außergewöhnlicher Präzision und Genauigkeit.
Gesundheitswesen: Beschleunigte medizinische Bildgebung
Die visuelle Analyse von CT-Scans und anderen Arten der medizinischen Bildgebung kann für Radiologen eine zeitaufwändige manuelle Aufgabe sein, insbesondere bei hohem Patientenaufkommen. Die Anwendung von KI-Algorithmen auf bildgebende Geräte kann dabei helfen, kritische Fälle zu erkennen und sie für Radiologen zu priorisieren, was die Zeit bis zur Diagnose verkürzen, die Ergebnisse verbessern und die Gesundheitskosten senken kann. Der Bedarf an KI-gestützter Bildgebung war nie deutlicher als zu Beginn der COVID-19-Pandemie. In den Gesundheitssystemen bestand ein dringender Bedarf an schnellen und effektiven Screening-Tools zur Identifizierung infizierter Patienten, um deren Isolierung und Behandlung sicherzustellen. Medizinische Fachkräfte berichteten jedoch, dass die größten Engpässe bei der Triage und Diagnose durch die Knappheit und lange Bearbeitungszeit von Virustests verursacht wurden. Um Klinikärzte bei der Erkennung von COVID-19 bei Patienten zu unterstützen, entwickelte DarwinAI die COVID-Net CNN-Architektur mit Optimierungen, die mit dem Intel® Distribution des OpenVINO™ Toolkit vorgenommen wurden. Als die Entwickler von DarwinAI die Modellarchitektur des neuronalen Netzes auf die Probe stellten, ergab sich eine Genauigkeitsrate von 98,1 Prozent bei relativ geringer Architektur- und Rechenkomplexität3, wodurch Radiologen eine größere Anzahl von Patienten diagnostizieren konnten.
Warum Intel für KI wählen
Von KI-Frameworks bis hin zu optimierten neuronalen Netzwerkmodellen, Entwicklungstools für Deep Learning-Inferenz und für KI optimierte Beschleuniger und Speicherinfrastrukturen umfasst das End-to-End-Portfolio von Intel alles, was Entwickler und Unternehmen benötigen, um KI-Anwendungen in großem Umfang zu entwickeln und einzusetzen.
Zu den Intel® Softwareprodukten für KI-Entwickler gehören:
- Das Intel® Distribution des OpenVINO™ Toolkit für die Optimierung und den Einsatz von KI-Inferenzen.
- Intel® oneAPI-Toolkits für umfassende KI-Entwicklung.
- Der Edge AI Box for Video Analytics Software-Stack für End-to-End-Lösungen für Computervision und Videoanalytik.
- Intel® DevCloud KI-Entwicklungs-Sandbox für Prototypen, Tests und die Ausführung von KI-Workloads.
Zu den Intel® AI-Hardwareprodukten gehören:
- Intel® IoT- und Embedded-Prozessoren für schnelle, zuverlässige Verarbeitung in allen KI-Umgebungen.
- Intel® Iris® Xe Architektur-basierte GPUs, die für die KI-Beschleunigung optimiert sind.
- Intel® Vision Accelerator Design-Produkte für energieeffiziente tiefe neuronale Netzwerkinferenz.
- Intel® Deep Learning Boost (Intel® DL Boost), um die Leistung von KI-Workloads zu beschleunigen und den Bedarf an benutzerdefinierten Beschleunigern wie GPUs zu reduzieren.
- Persistenter Intel® Optane™ Speicher zur Beschleunigung von KI-Workloads und zur Steigerung der maschinellen Lernfunktionen.
Mit CNNs und Deep Learning die Zukunft beschleunigen
Deep Learning und CNNs werden auch in Zukunft zu den leistungsfähigsten KI-Tools für Entwickler und Unternehmen gehören. Unternehmen sind immer auf der Suche nach neuen, innovativen Lösungen, um ihre besonderen Herausforderungen zu meistern. Viele werden sich Technologien für Lösungen zuwenden, die auf Deep Learning und CNNs aufbauen, wie z. B. Computervision, KI, Augmented Reality und Virtual Reality. Im Zuge des Fortschritts der KI setzt sich Intel dafür ein, Entwicklern, Datenwissenschaftlern, Forschern und Dateningenieuren die Vorbereitung, Erstellung, Bereitstellung und Skalierung ihrer KI-Lösungen so nahtlos wie möglich zu gestalten.