Ein Leitfaden zum korrigierenden Speicher-ECC-Fehler und wann ein Ereignis ausgelöst wird
Schritte zum Handeln mit im Systemereignisprotokoll protokollierten, korrigierbaren ECC-Fehlerereignis (SEL)
ECC-korrekturfähige Fehler stellen einen Schwellenwertüberlauf für ein bestimmtes Dual In-line Memory Module (DIMM) innerhalb eines bestimmten Zeitrahmens dar.
- Wenn es kein schwerwiegendes Problem gibt (Purple Screen Of Death (PSOD) oder einen unerwarteten Neustart), und der korrigierende ECC-Fehler einschließlich ADDDC-Fehler (Adaptive Double Device Data Correction), der innerhalb von 24 Stunden weniger als 10 Ereignisse für jeden DIMM-Standort ist, innerhalb eines Schwellenwerts liegt, besteht die Empfehlung, zu überwachen, ob ein ECC-Fehler auftritt, jeder DIMM-Ort, der das Ereignis auslöset.
- Wenn es ein schwerwiegendes Problem (Purple Screen Of Death (PSOD) oder einen unerwarteten Neustart gibt und der korrigierbare ECC-Fehler einschließlich ADDDC-Fehler (Adaptive Double Device Data Correction), der innerhalb von 24 Stunden für jeden DIMM-Standort mehr als 10 Ereignisse sind, wird empfohlen, jeden DIMM-Standort erneut zu setzen, indem Sie die folgenden Schritte ausführen:
- Schalten Sie das System aus und entfernen Sie das Netzkabel.
- Identifizieren Sie den DIMM-Standort, an dem Sie erneut einsetzen möchten. Lesen Sie dazu die technischen Produktspezifikationen für Ihre Serverplattform, um den DIMM-Standort zu identifizieren.
- Führen Sie den Erneuten Sitz der identifizierten DIMM(en) durch.
- Einfügen Netzkabel und Netzbetrieb am System
- Achten Sie 24 Stunden lang auf jeglichen Ecc-Fehler
- Wenn der ECC-Fehler an demselben DIMM-Speicherort weiterhin auftritt, an dem erneut eingesteckt wurde, generieren und senden Sie dann SEL- und Debug-Protokolle, die beide von der BMC-Webkonsole generiert wurden, an den Intel Kundensupport.
Notizen |
Die Error Correction Code (ECC)-Fehler sind selbstkorrigierend. Je nach RAS-Konfiguration (Reliability Availability Serviceability) des Speichers kann der Integrierte Speichercontroller (IMC) das betroffene DIMM offline nehmen. |
Für verschiedene Intel Serverplattformen gibt es einige Unterschiede in der Ereignisdefinition. Lesen Sie dazu den Fehlerbehebungsleitfaden für das Systemereignisprotokoll Für Ihre Serverplattform | |
Intel empfiehlt, das System-BIOS auf die neueste verfügbare Version für Ihre Serverplattform herunterzuladen und zu aktualisieren. | |
Wenn das System für Intel® Data Center Systems für die Nutanix* Enterprise Cloud Platform zertifiziert ist, besuchen Sie die Seite Nutanix* Life Cycle Manager. Eine Liste der Hardware- und Firmware-Kompatibilität finden Sie auf der Nutanix* Hardware- und Firmware-Kompatibilitätsseite. |