Intelligente Telemetrie: Leistungssteigerung für Cloud und Rechenzentrum

Performance-Messungen direkt an der Hardware und ein dedizierter Software-Stack erhöhen Reaktionsfähigkeit, Zuverlässigkeit und Sicherheit der Server.

author-image

Von

Ein wichtiges Hilfsmittel zur Steigerung der Zuverlässigkeit eines lokalen oder eines cloudbasierten Rechenzentrums ist das detaillierte Monitoring der Leistungsdaten der eingesetzten Hardware. Im Gegensatz zur Bewertung der Gesamtperformance eines Systems auf Betriebsebene erlaubt die sogenannte Hardware-Telemetrie eine Analyse einzelner, dedizierter Komponenten in Fast-Echtzeit.

Dafür müssen die genannten Systemkomponenten entsprechende Einrichtungen zur Generierung dieser Messwerte aufweisen. So verfügen etwa die skalierbaren Intel® Xeon™ Prozessoren über Performance Monitoring Units, die Taktfrequenzen, Cache-Nutzung und ähnliche Parameter überwachen und so eine bereits hardwareseitig implementierte Grundlage für die Telemetrie bieten.

Vom reaktiven zum proaktiven Telemetrie-Einsatz

Das wichtigste Einsatzgebiet von Hardware-Telemetrie ist das Erkennen der Überlastung einzelner Server oder dedizierter Bauteile. Diese resultiert aus echten Gerätefehlern, häufiger jedoch aus Lastspitzen bei der Verteilung von Workloads, die dann zu Speicherkonflikten, hoher Temperatur der Prozessoren und ähnlichen Problemen führen. Je größer ein Rechenzentrum ist, desto wahrscheinlicher ist es auch, dass solche Performance-Einbrüche auftreten.

Ein Auslesen der Leistungsdaten der Hardware ermöglicht es, diese Probleme schnell zu erkennen, einzugrenzen und stockende Prozesse wieder zum Laufen zu bringen. Zudem lassen sich Telemetriedaten auch für die Feinabstimmung der Prozessverwaltung in Rechenzentren einsetzen. Die ermittelten Messwerte können über einen längeren Zeitraum mit der Verteilung der Workloads korreliert werden, wodurch sich dann vorausschauend Performance-Engpässe vermeiden lassen.

Auf dem Weg zum autonomen Rechenzentrum

Den Einstieg in Telemetrie ermöglicht der Intel® Telemetry Collector (ITC), der die wichtigsten Messwerte zum Energieverbrauch, Speichereinsatz oder zur Ressourcenauslastung bereitstellt. Für eine effizientere Nutzung der Telemetriedaten, insbesondere bei größeren Serverkonstellationen, empfiehlt sich jedoch die Einrichtung eines eigenen skalierbaren Software-Stacks, der die Daten über alle eingesetzten Cluster hinweg sammeln, speichern, kategorisieren und darstellen kann.

Hierfür stellen Intel und seine Partner entsprechende Tools bereit. Sie erlauben eine umfassende Überwachung der Telemetrie, die zunächst einmal die Reaktionsfähigkeit der eigenen IT bei Lastwechseln oder Performanceproblemen verbessert und so Zuverlässigkeit und Sicherheit der gesamten Server-Infrastruktur erhöht. Ein entsprechender Ausbau unter Einsatz von KI ermöglicht dann eine vorausschauende Wartung und eine teilweise Automatisierung der Orchestrierung.

Eine detaillierte Betrachtung der Methoden für eine produktive Umsetzung von Telemetrie und eine Übersicht über die zur Anwendung kommenden Tools finden Sie in diesem Whitepaper.