Cloud-Telemetrie: Fördern Sie Ihre IT-Strategie

Überwachen Sie Ihre Ressourcen effektiver, um Leistung und Gesamtbetriebskosten zu optimieren.

Cloud-Telemetrie, Übersicht:

  • Unter Telemetrie versteht man die Überwachung und Analyse von Informationen von IT-Systemen, um so die Leistung zu ermitteln und Probleme zu identifizieren.

  • Bei den besten Telemetrie-Strategien wird ein ganzheitlicher Ansatz mit mehreren Systemen gewählt, um die wesentlichen Kennzahlen zu identifizieren, die für den geschäftlichen und IT-Betrieb wichtig sind.

  • Zu den neuesten Entwicklungen in der Telemetrie gehören die künstliche Intelligenz (KI) und die vorausschauende Analyse zur Erkennung und in einigen Fällen zur Lösung von Problemen ohne menschliches Eingreifen.

author-image

Von

Was ist Cloud-Telemetrie?

Bei der Cloud-Telemetrie werden Software-Tools eingesetzt, um Informationen über die IT-Infrastruktur festzuhalten und zu analysieren, die sonst nur schwer zu erfassen wären.

Für das Cloud-Management ist die Telemetrie von entscheidender Bedeutung. Für das menschliche Auge jedoch erscheint die IT-Infrastruktur sehr ähnlich, unabhängig davon, ob die Hardware optimal funktioniert oder nicht. Die Telemetrie erlaubt es IT-Fachleuten, Komponenten zu beobachten und Anwendungen mithilfe von Kennzahlen, die Leistung, Auslastung, den Energieverbrauch und vieles mehr erfassen, genauer zu überwachen.

Wenn Organisationen die Telemetrie effektiv einsetzen, können sie wichtige Leistungsindikatoren wie Gesamtbetriebskosten, Zuverlässigkeit, Sicherheit, Leistung und Energieverbrauch verbessern. Mithilfe der Telemetrie können auch Erkenntnisse gewonnen werden, mit denen IT-Teams die steigenden Anforderungen an die Kapazität bewältigen und feststellen können, ob die Infrastruktur optimal genutzt wird.

Dank der jüngsten Fortschritte im Bereich der Telemetrie und Cloud-Orchestrierung können Organisationen einen Schritt in Richtung eines hochmodernen, autonomen Rechenzentrums machen. Durch KI und vorausschauende Analysen in der Cloud-Telemetrie können Ausfälle und andere Probleme vorhergesagt und in einigen Fällen sogar ohne menschliches Zutun behoben werden.

Optimierung der Infrastruktur durch Telemetrie

Die Telemetriefunktionen sind in den letzten Jahren robuster geworden. Durch den Einsatz neuster Messverfahren und Methoden, die mittels fortschrittlicher Hardware ermöglicht werden, ist eine umfassendere Überwachung und Analyse von Clouds möglich als bei früheren Technologiegenerationen. Um den Mehrwert und die Leistung von Infrastrukturen durch den Einsatz von Telemetrie zu steigern, ist ein ganzheitlicher Ansatz, der mehrere Systeme umfasst, erforderlich.

Server
Der Schutz von Hardware-Investitionen erfordert eine Server-Telemetrie, die einen detaillierten Einblick in den Serverstatus bietet. Kennzahlen in Bezug auf den Energieverbrauch und den Luftvolumenstrom sowie auf Heizung und Kühlung können dabei helfen, Probleme zu identifizieren, die den Zustand der Hardware verschlechtern könnten. Die Überwachung und der Ausgleich der Serverauslastung sowie die Beobachtung des Serverspeichers sind ebenfalls wichtige Faktoren.

Rechenbetrieb
Durch den effektiven Einsatz von Telemetrie können Unternehmen ihre Rechenressourcen effizienter verwalten. Die Telemetrie kann die Auslastung pro Kern ermitteln und die Prozentsätze der CPU-Auslastung mit den Spezifikationen der Komponenten vergleichen. Falls eine CPU ineffizient arbeitet, kann die IT eine Fehlerbehebung durchführen oder sie ersetzen, um so das zu erwartende Leistungsniveau zu erreichen.

Speicher
Die Telemetrie für Dual In-line Memory Module (DIMMs) beruht auf der Vorhersage von Ausfällen. Da Probleme auf einem bestimmten DIMM oft eine ganze Gruppe von Modulen betreffen, kann die Telemetrie dabei helfen zu analysieren, welche anderen DIMMs ausgetauscht werden müssen, um Ausfälle zu minimieren. Moderne persistente Speichermodule (Persistent Memory Modules, PMMs) wie der persistente Intel® Optane™ Speicher ermöglichen eine robustere Telemetrie. Dies liegt daran, dass PMMs über einen Endurance Analyzer (Tool zur Analyse der Dauerbelastbarkeit) mit vorhersehbarer Lebensdauer verfügen, um die vorausschauende Instandhaltung zu verbessern.

Datenspeicher
Solid-State-Drives (SSDs) haben zu erheblichen Verbesserungen der Telemetriefunktionen geführt. Diese Laufwerke, einschließlich Intel® SSDs, verfügen über moderne Tools zur Analyse des Zustands der Laufwerke, die Erkenntnisse über die Leistung und die verbleibende Lebensdauer des Laufwerks liefern. Angesichts der Tatsache, dass sich der Zustand eines Laufwerks mit der Zeit verschlechtert, ist es mithilfe der Telemetrie möglich, vorherzusagen, zu welchem Zeitpunkt das Laufwerk ausfallen wird.

Netzwerkbetrieb
Die Telemetrie im Bereich der Netzwerkinfrastruktur hat sich in den letzten Jahren weiterentwickelt. Während Legacy-Treiber lediglich einen Blick auf die E/A und Leistung erlaubten, können neuere Treiber einen umfassenderen Überblick über die Netzwerkauslastung bieten. Dank SmartNICs mit Intel® FPGA-Technik kann der Lastausgleich sehr genau verwaltet werden, um den zentralen Rechenressourcen Netzwerk-Workloads abzunehmen.

Anwendungen
Telemetrie in Form von Anwendungsüberwachung kann Ihnen einen tieferen Einblick darüber verschaffen, ob Ihre Anwendungen die Benchmarks erfüllen. IT-Teams können die Latenz und die Ladezeiten von Timeouts sowie andere Messungen des allgemeinen Zustands einer Anwendung analysieren.

Wenn Organisationen die Telemetrie effektiv einsetzen, können sie wichtige Leistungsindikatoren wie Gesamtbetriebskosten, Zuverlässigkeit, Sicherheit, Leistung und Energieverbrauch steigern.

Telemetrie-Strategie: Diese Tipps können sie verwenden

Es gibt keine allgemeingültige Strategie für die Telemetrie. Ihre bestehende Infrastruktur, Ihre kurz- und langfristigen Kostenfaktoren und Geschäftsziele bestimmen die allgemeine Richtung Ihrer Strategie.

Einige Grundprinzipien treffen jedoch auf jede Organisation zu, die sich mit einer fortschrittlichen Telemetrie-Strategie auf die Zukunft vorbereiten möchte:

  • Weniger bedeutet mehr: Auch wenn die Telemetrie auf das Sammeln von Informationen über Hardware und Software abzielt, sind nicht alle Daten gleichermaßen wichtig. Häufig werden zu viele Informationen gesammelt – jedoch zu wenig ausgeschöpft. Es ist wichtig, die richtigen Kennzahlen zu identifizieren, die überwacht werden müssen.
  • Ein schrittweises Vorgehen: Die Analyse von Workloads ist ein vierstufiger Prozess, der mit der Ansicht des Plattformzustandes und der Validierung der Hardware beginnt. Verwenden Sie als nächstes ein Charakterisierungsverfahren, um das Systemverhalten besser zu verstehen. Schaffen Sie ein Gleichgewicht für bestimmte Workloads auf Ihrer Plattform durch Hardware-Rightsizing. Sobald die Hardware zufriedenstellend ist, profilieren und optimieren Sie die Software, um Ineffizienzen zu identifizieren.
  • Vorausschauendes Arbeiten: Dank neuartiger Hardware und Tools ist es möglich, Probleme zu erkennen, bevor sie entstehen. Durch den Umstieg auf Hardware, die ihren eigenen Zustand und ihre verbleibende Lebensdauer messen kann, können Sie eine vorausschauende statt reaktive Instandhaltungsstrategie ermöglichen, die Ausfälle und Serviceunterbrechungen minimiert.
  • Automatisierte Entscheidungen: Angesichts der Tatsache, dass die Telemetrie bei der Identifizierung von Problemen immer besser wird, kann Infrastruktur-Data-Mining Ihnen dabei helfen, bessere Entscheidungen über die Auslastung und Leistungsoptimierung zu treffen. Durch die Ermittlung, wie in der Vergangenheit Workloads aufgeteilt und Komponenten verwendet wurden, kann das Infrastruktur-Data-Mining zu besseren Entscheidungen für die Zukunft beitragen. Viele dieser Entscheidungen können nach dem Training von KI-Modellen sogar automatisch getroffen werden, sodass Leistung und Energieverbrauch ohne menschliches Zutun optimiert werden können.

Telemetriefunktionen entwickeln sich oft zeitgleich mit Fortschritten in der Infrastruktur, z. B. wenn neue Hardwaretypen neue Messungen ermöglichen. Berücksichtigen Sie jede neue Komponente, die Ihrer aktuellen Konfiguration hinzugefügt wird, und überlegen Sie, ob sie sich auf Ihre Strategie und Ihre wesentlichen Kennzahlen auswirken könnte.

Intel Tools für die Cloud-Telemetrie

Wir bei Intel setzen uns dafür ein, Unternehmen dabei zu helfen, zu verstehen, wie Telemetrie effektiv genutzt werden kann, und die für sie wichtigen Kennzahlen zu bestimmen. Von Hardware-kompatibler Telemetrie bis hin zu Entwicklungskits und Frameworks für Performance-Techniker – die Intel® Technik trägt zur Verbesserung der modernen Cloud-Telemetrie bei.

Mithilfe der fortschrittlichen Performance Monitoring Units (Intel® PMU) konnte Intel die Telemetrie bis auf die Siliziumebene ausdehnen. Diese moderne On-Chip-Hardware ermöglicht eine robustere Telemetrie mit fortschrittlicher Messtechnik und Diagnose. Wir entwickeln die PMUs parallel zu unseren Architektur-Updates weiter.

Dank des Intel® Telemetry Collector (ITC) können IT-Teams Leistungsvisualisierungen für eine Reihe von Systemen in kürzester Zeit analysieren und erkennen. ITC bietet Ihnen Zugriff auf die gleiche Reihe von Tools, die auch von den Performance-Technikern von Intel bei einer Leistungsüberprüfung verwendet werden würden.

Im Zuge der Weiterentwicklung von Telemetriefunktionen wird Intel seine Aufgabe der Innovation und Schulung für alle Phasen der Analyse und Optimierung von Workloads fortsetzen. Von vorausschauender und erweiterter Analyse bis hin zu hardwarebasierten Fortschritten auf dem Gebiet der Telemetrie – wir freuen uns darauf, unseren Kunden schon heute die Technologie der Zukunft zu ermöglichen.