Datenerfassung: Wo die Einblicke beginnen

Das Verstehen von Informationen beginnt mit der Datenerfassung. Intel® Technik unterstützt innovative neue Datenerfassungsmethoden am Netzwerkrand.

Datenerfassung – Auf einen Blick:

  • Die Erfassung oder Einspeisung von Daten ist der erste Schritt der Daten-Pipeline zur Unterstützung von Geschäftsanalysen, Forschung und Entwicklung, die zur Entscheidungsfindung beitragen.

  • Die Datenerfassungsmethoden entwickeln sich schnell mit wachsenden Arten von IoT-Geräten, die Daten am Netzwerkrand generieren. Datenwissenschaftler betreuen immer größere Datenbanken, die dann von HPC-Systemen (High Performance Computing) verarbeitet werden.

  • Intel bietet fortschrittliche Technik für die Prozessor-, Netzwerk- und Speicherschicht zur schnellen Datenerfassung und Verfügbarkeit am Netzwerkrand, in der Cloud und im Rechenzentrum.

author-image

By

Was ist Datenerfassung?

Die Datenerfassung oder Dateneinspeisung ist der erste Schritt in der Daten-Pipeline, bei dem Informationen aus einer Vielzahl von Quellen gesammelt werden. Der Zweck der Datenerfassung ist es, die Informationen zu liefern, die für Geschäftsanalysen, zur Forschung und Entscheidungsfindung erforderlich sind. In vielen Fällen können auf Daten basierende Entscheidungen am Punkt der Datengeneration stattfinden, wie bei intelligenter Fertigung, die KI-Vision-Daten verwendet, um die Ausgabequalität der Fertigungsstrecke zu verifizieren. In anderen Fällen kann die Analyse viel länger dauern und Petabytes an Daten oder mehr umfassen, um die anspruchsvollsten Rechenprobleme wie genomischen Sequenzierung zu unterstützen. Mit der Weiterentwicklung von IoT, Edge- und Rechenzentrumstechnologien sind die Methoden und Lösungen der Datenerfassung vielfältiger als je zuvor geworden.

Strukturierte und unstrukturierte Daten

Die beiden primären Arten von Daten sind strukturierte und unstrukturierte, wobei manche Experten den Begriff semistruktruiert für Daten mit Aspekten der beiden Kategorien verwenden.

  • Strukturierte Daten sind spezifisch und organisiert und können leicht von relationalen Datenbanken gelesen und verstanden werden. Diese Informationen sind normalerweise hierarchisch und können leicht verglichen werden. Beispiele für strukturierte Daten sind Finanztransaktionsdaten, CRM-Daten (Customer Relationship Management), ERP-Daten (Enterprise Resource Planning) oder Daten aus dem Gesundheitswesen.
  • Unstrukturierte Daten sind qualitativer in Ihrer Natur, mit weniger inhaltlicher Organisation oder Struktur. Da es schwierig ist, sie in eine Hierarchie einzupassen, hat die Erfassung unstrukturierter Daten ihre Analyse oft hinter sich gelassen. Dadurch sind viele dieser Daten „dunkel“ und wurden von der Organisation, die sie produziert und speichert, nicht analysiert. Normalerweise werden nicht-relationale Datenbanken zum Speichern von unstrukturierten Daten und zum Zugriff auf diese verwendet. Beispiele für unstrukturierte Daten können Audiodateien, PDFs, Postings auf Social Media, Kundenfeedback oder historische Papierdokumente umfassen.

Sowohl strukturierte als auch unstrukturierte Daten können neben Metadaten gesammelt werden, oder Daten zu den Daten selbst. So erfasst beispielsweise eine digitale Kamera Metadaten über Uhrzeit/Datum und die Kameraausrüstung, die dann als Teil der digitalen Fotodatei übertragen werden.

Quellen und Methoden der Datenerfassung

Die Datenerfassung kann auf einen von zwei Prozessen verweisen: Datenwissenschaftler können Informationen in Datenbanken erfassen und verwalten und sie in das Rechenzentrum oder die Cloud-Umgebung zur Verarbeitung übertragen. Oder IoT-Sensoren, Kameras und andere Geräte können Daten am Netzwerkrand erfassen. Für viele IoT Anwendungsfälle werden diese Daten nahezu in Echtzeit in Edge-Servern verarbeitet, um Anwendungsfälle wie eine automatisierte Fehlererkennung in intelligenten Fabriken oder intelligentes Verkehrsmanagement in Smart Cities zu ermöglichen. Die am Netzwerkrand erfassten Daten können auch zur weiteren Verarbeitung und Analyse in die Cloud übertragen werden.

Quellen und Methoden der Datenerfassung haben sich verändert und umfassen nun Folgendes:

  • IoT-Geräte und Sensoren: Mit der Entwicklung von Edge-Technik können Daten jetzt durch automatisierte Prozesse aus mehr Quellen als je zuvor gesammelt werden: Sensoren an industriellen Maschinen, Abwasserleitungen, Brücken und Patientenüberwachungsgeräten, um nur einige zu nennen
  • Audiovisuelle Datenerfassung: Da sich Lösungen entwickelt haben, um unstrukturierte Daten wie Audio-, Bild- und Videodateien zu analysieren, ist die Erfassung dieser Daten wichtiger als je zuvor. Diese Arten von unstrukturierten Daten verwenden oft viel größere Dateitypen, was mehr Verarbeitungsleistung und Datenspeicher für die Einspeisung erfordert.
  • Echtzeitanalyse: Mit Echtzeitanalysen werden Daten jetzt erfasst und analysiert, während der Erfassungsstrom läuft. Beispielsweise können Kapazitätssensoren Einzelhändlern dabei helfen, die öffentlichen Gesundheitsanforderungen zu erfüllen und Echtzeitwarnungen senden, wenn sichere Kapazitätslimits fast erreicht oder überschritten werden.
  • Anonymisierte Datenerfassung: Datenschutzbedenken erfordern, dass bestimmte Daten ohne direkte Verbindung zu der spezifischen Person analysiert werden, die den Datenpunkt generiert. Die Datenerfassung und Verarbeitung kann jetzt demographische Gruppierungen beinhalten, ohne auf bestimmte personenbezogene Daten zugreifen zu können.
  • Datenpflege: Datenwissenschaftler spezialisieren sich auf die Organisation strukturierter Datenquellen, um komplexe Analyse von Themen wie Genom-Sequenzierung, Klimawissenschaft und Finanzprognosen zu unterstützen. Diese Datenmengen sind in der Regel in einer Größenordnung, deren Analyse eine HPC-Infrastruktur erfordert.

Eine moderne Datenerfassungsstrategie dürfte eine vielfältige Kombination dieser Techniken und Quellen umfassen.

Datenerfassungsgeräte am Netzwerkrand

Die technischen Anforderungen einer Datenerfassungsstrategie hängen davon ab, wo die Daten generiert werden und was ein Unternehmen mit diesen Daten erreichen möchte. Es gibt zwei wichtige Vorteile für die Datenverarbeitung an dem Punkt, an dem Daten erfasst oder erzeugt werden. Der erste Vorteil ist, dass Workloads nicht in die Cloud übertragen werden müssen, sodass Unternehmen Kosten sparen, da weniger Netzwerkinfrastruktur erforderlich ist. Der andere Vorteil ist, dass die Verarbeitung von Daten am Punkt der Erzeugung eine Analyse in nahezu Echtzeit ermöglicht.

IoT-Geräte können von Intel Atom® Prozessoren oder Intel® Movidius™ Myriad™ X Vision Processing Units (VPUs) profitieren, um die Leistung zu bieten, die für audiovisuelle oder Sensorströme am Netzwerkrand benötigt wird. Je nach Anwendungsfall sind diese Prozessoren auch für die thermischen Anforderungen für kleinere Gehäusebereiche oder sogar in einer Außenumgebung geeignet. Für Edge-Workloads, die datenintensiver sind, wie die Unterstützung von KI-Inferenz für mehrere Video-Streams, bieten KI-Geräte und Edge-Server mit Intel® Core™ Prozessoren der 11. Generation oder skalierbaren Intel® Xeon® Prozessoren der 3. Generation mehr Datendurchsatz als Edge-Sensoren allein. Diese Server ermöglichen auch mehr Konnektivität mit PCIe-Erweiterungssteckplätzen, damit Systemintegratoren für bestimmte Implementierungen Beschleuniger hinzufügen können.

Datenerfassungstechnik für die Cloud und das Rechenzentrum

Es ist nicht immer sinnvoll, Rechenleistung an den Netzwerkrand zu verschieben. Wenn eine Implementierung Ressourcen schneller hochskalieren muss, als das in einem Edge-Gerät verfügbar ist, dann wäre die Einspeisung Ihrer Daten in die Cloud eine effektivere Option. Außerdem sind einige Workloads so anspruchsvoll bezüglich Rechenleistung, Arbeitsspeicher oder Datenspeicher, dass sie eine Rechenzentrums- oder HPC-Infrastruktur benötigen, um Ergebnisse rechtzeitig zu generieren. In diesen Fällen hat die Datenerfassungstechnik die größten Auswirkungen in einer ausgewogenen Konfiguration, die wichtige Upgrades für Rechenleistung, Datenspeicher und Netzwerk kombiniert, um eine höhere Ebene der Plattformnutzung und Datenverfügbarkeit zu erreichen.

  • Verarbeitung: Skalierbare Intel® Xeon® Prozessoren der 3. Generation sind die ideale Wahl für Datenerfassungs-Workloads in der Cloud oder im Rechenzentrum. Diese Prozessoren bieten bis zu 1,92-mal bessere Analyseleistung im Vergleich zu einer 5 Jahre alten 4-Sockel-Plattform,1 und bei der Unterstützung von Intel® DL Boost mit BF16 bis zu 1,93-mal bessere KI-Bildklassifizierungsleistung im Vergleich zur vorherigen Generation beim ResNet50-Durchsatz für die Bildklassifizierung2
  • Netzwerk: Intel® Ethernet Netzwerkadapter der Produktreihe 800 unterstützen bis zu 100 GbE Geschwindigkeiten mit mehreren Formfaktoren, breiter Unterstützung für Betriebssysteme und flexibler Portkonfiguration. Embedded-Technik wie Dynamic Device Personalization (DDP) trägt dazu bei, die Latenz mit programmierbaren Verhaltensweisen für die Paketverarbeitung zu reduzieren.
  • Datenspeicher: Intel® Optane™ Rechenzentrums-SSDs bieten unglaublich schnelle Lese-/Schreibgeschwindigkeit, hohe Volumen für bessere Speicherdichte und Optionen für PCIe-Schnittstellen, die Daten näher am Prozessor positionieren.

Ihre umfassende Datenerfassungsstrategie

Vom Netzwerkrand bis zum Kern und zur Cloud garantiert das umfangreiche Intel Portfolio die Leistung, Bandbreite und Datenverfügbarkeit, die zur Unterstützung schneller, konsistenter und zuverlässiger Datenerfassung und Einspeisung erforderlich ist. Intel bietet eine umfassende Grundlage für Ihre Datenpipeline, die intelligente Edge-Geräte, Netzwerklösungen mit hoher Bandbreite und Rechenleistung mit mehreren Einstiegspunkten und Formfaktoren ermöglicht. Intel® Lösungen helfen Unternehmen dabei, ihre Daten schnell zu verschieben, sowie handlungsfähige Erkenntnisse und hohen Wert zu gewinnen.

Produkt- und Leistungsinformationen

1Siehe (5) bei www.intel.com/3gen-xeon-config. Die Ergebnisse können von Fall zu Fall abweichen.
2Siehe (9) bei www.intel.com/3gen-xeon-config. Die Ergebnisse können von Fall zu Fall abweichen.