Festplatten-Fehler Beratung für den Intel® modularen Server

Dokumentation

Wartung und Leistung

000007020

18.11.2017

Festplatten sind nach wie vor der wahrscheinlichste Fehler in einem Computer, aufgrund der ständig bewegenden Antriebsköpfe und Platten. Festplatten-Ausfälle sind eine häufige Ursache für Datenverlust. Das Einrichten eines RAID-Arrays bietet einen gewissen Schutz (RAID 1, RAID 10, RAID 5 oder RAID 6). Das Einrichten eines RAID-Arrays ersetzt jedoch keine reguläre Sicherung geschäftlicher oder persönlicher Daten.

Der Intel® Modular-Server verfügt über eine ausgefeilte Speicherstruktur. Die verfügbaren physikalischen Festplatten werden zum Erstellen von Speicherpools verwendet, in denen ein oder mehrere virtuelle Laufwerke erstellt werden, die den verschiedenen Servern im System zugewiesen sind.

Daher kann ein Laufwerkfehler in einem Speicherpool, der mehr als ein virtuelles Laufwerk enthält, alle virtuellen Laufwerke in diesem Pool beeinflussen.

Besitzer oder Administratoren eines Intel® modularen Servers können bestimmte Schritte Unternehmen, um die Festplattenausfälle in diesem System vorzubereiten.

  • Erwerben Sie zum Zeitpunkt des Kaufs des Intel Modular Server ein oder zwei zusätzliche Festplatten. Wenn eine Festplatte in einem Produktionssystem ausfällt, sind die gleichzeitig erworbenen Laufwerke:
    • Wahrscheinlich die gleiche Laufwerk-Firmware haben
    • Würde sofort zur Hand sein
  • Konfigurieren Sie ein Laufwerk als allgemeines oder dediziertes Hot Spare.

  • Konfigurieren Sie e-Mail-Benachrichtigungen, um Warnungen über Laufwerkausfälle oder Voraussetzungen für Vorhersagefehler (PFA) zu erhalten.

    • Eine PFA wird von der Laufwerks-Firmware an das Intel® Speicher-Controller-Modul (SCM) gesendet, falls die Laufwerk-Firmware reale oder angenommene Probleme auf der Festplatte findet.

  • Eine PFA-Bedingung führt in der Regel zu einer sofortigen Vorhersage Laufwerks Migration (PDM), wenn ein Hot Spare konfiguriert ist.

  • Eine PFA-Bedingung ist vorhersehbar, so dass das betroffene Laufwerk weiterhin funktionieren kann, auch wenn ein PDM stattfindet. Um ein solches Laufwerk zu ersetzen, sollte es manuell offline geschaltet werden, bevor es aus dem Gehäuse entfernt wird. Diese Aktionen stellen sicher, dass die Daten, die zuvor zum Hot-Spare migriert wurden, wieder auf ein neues Laufwerk umgestellt werden, nachdem es in diesen Steckplatz eingefügt wurde. Diese Aktivität wird im Ereignisprotokoll als Übergang erfasst.

  • PDMS und Übergänge zurück zu einem neuen Laufwerk als Hintergrund-Aktivitäten ausgeführt. Je nach Auslastung des Servers während eines normalen Arbeitstages kann dies Auswirkungen auf die Leistung oder die Dauer der Migration/Transition haben.

  • Jede Migration kann eine Festplatte in einer Ver alte ten Bedingung belassen. Ein Laufwerk kann veraltet werden, nachdem seine Daten veraltet sind. Dies kann auftreten, wenn das Laufwerk vom Benutzer offline geschaltet wird (mit der Aktion offline erzwingen), indem das Laufwerk physisch entfernt wird, oder durch einen Datenträgerfehler oder durch PDM. Wenn der Speicherpool neu erstellt wird, um das fehlende Laufwerk zu korrigieren, wird das Laufwerk als veraltet markiert. Um einen physikalischen Datenträger verfügbar zu machen, nachdem er veraltet ist, sollten Benutzer das Laufwerk in der modularen Server-GUI auswählen und die Aktion Ver altete Bedingung löschen verwenden, um das Laufwerk wieder online zu schalten. (nehmen Sie diese Aktionen nicht vor, wenn das Laufwerk aufgrund eines Fehlers des Laufwerks als veraltet markiert wurde.)

  • Ein echter plötzlicher Datenträgerfehler wird im Ereignisprotokoll durch konstantes Laufwerk zurückgesetzt und Befehlstimeouts zu diesem Laufwerk erfasst werden. Ein Laufwerksfehler löst eine e-Mail-Warnung aus, wenn Warnungen eingerichtet wurden. Ein solcher Fehler kann den Speicherpool in einem kritischen Zustand verlassen, bis das Laufwerk neu erstellt wird, und sich auf den Zugriff der Compute-Module auf diesen Speicherpool auswirken. Wenn ein Hot-Spare konfiguriert ist, werden die Daten dieses Laufwerks zum Hot-Spare migriert und der Übergang zurück, wenn das defekte Laufwerk ersetzt wird. Wenn kein Hot Spare konfiguriert ist, können die Speicher-Pool, virtuelle Laufwerke und Compute-Module anfällig für einen zweiten Laufwerkfehler. Diese Sicherheitsanfälligkeit hängt von der konfigurierten RAID-Stufe ab. Ersetzen Sie in einer solchen Situation das ausgefallene Laufwerk so schnell wie möglich. Auf diese Weise kann ein Neuaufbau beginnen und die Auswirkungen auf die Compute-Module und deren Betrieb so kurz wie möglich halten.

  • Es ist denkbar, dass mehr als ein Laufwerk entweder etwa zur gleichen Zeit oder kurz nach einander ausfallen kann. Es kann nur eine Hintergrundaktivität gleichzeitig ausgeführt werden. Ersetzen Sie daher zuerst den am stärksten gefährdeten physikalischen Datenträger (z. b. ein Laufwerk in einem RAID 5-Array), um zu steuern, dass der Neuaufbau dieses Arrays zuerst gestartet wird. Wenn die Migration dieses Datenträgers abgeschlossen ist, ersetzen Sie das zweite Laufwerk.

  • In der Intel® modularen Server-GUI steht eine Hilfe-Funktion zur Verfügung. Suchen Sie in der Hilfe nach allen Aktionen, die auf den Intel® modularen Server Komponenten angeboten werden, um festzustellen, was es tut und wann es verwendet werden soll.

Wenn Besitzer oder Administratoren des Intel® modularen Servers auf andere Laufwerksfehler bezogene Bedingungen stoßen, die in der GUI-Hilfe oder in diesem Dokument nicht erläutert werden, wenden Sie sich an den Intel Kundendienst in Ihrer Region.