Grundlegende Diagnose für korrigierbare/nicht korrigierbare ECC-Speicherfehler mit Intel® Server-Mainboards
Hinweis | Support für die in diesem Artikel beschriebene Fehlerbehebung finden Sie in den technischen Produktspezifikationen für Ihre Serverplattform. |
Was wird angezeigt?
Korrigierbare und/oder nicht korrigierbare ECC-Ereignisse (Error Correcting Code) für Speichermodule. Zum Beispiel:
Mmry ECC Sensor SMI Handler Warnspeicher CPU: 1, DIMM: D0 DIMM Rank: 1. - Correctable ECC /other correctable memory error -AsSerted. (Korrektierbare ECC/andere korrekturfähige Speicherfehler ) - Bestätigt.
Was ist ein ecc-correctable Error Event (Speicherfehlerkorrekturcode) ?
Der fehlerbehebbare ECC-Fehler stellt einen Schwellenwertüberlauf für ein bestimmtes Dual-In-Line-Speichermodul (DIMM) innerhalb eines bestimmten Zeitrahmens dar.
Behebung des Problems:
Speicherdatenfehler werden als korrigierend oder nicht korrigierbar protokolliert. Lesen Sie die unten stehenden Anweisungen basierend auf dem angezeigten Fehlertyp:
Notizen |
|
- Wenn es kein schwerwiegendes Problem gibt (Purple Screen of Death (PSOD) oder einen unerwarteten Neustart) und der korrigierbare ECC-Fehler, einschließlich AddDC-Fehler (Adaptative Double Device Data Correction) weniger als 10 Ereignisse alle 24 Stunden für jeden DIMM-Standort beträgt, der sich innerhalb des Schwellenwerts befindet, empfiehlt es sich, den Server auf alle Ecc-Fehler zu überwachen , die an jedem DIMM-Ort, der das Ereignis auslösen, auftreten.
- Wenn es ein schwerwiegendes Problem (Purple Screen of Death (PSOD) oder einen unerwarteten Neustart gibt und der korrigierbare ECC-Fehler, einschließlich ADDDC-Fehler (Adaptative Double Device Data Correction) geringer ist als 10 Veranstaltungen alle 24 Stunden für jeden DIMM-Standort; es wird empfohlen, Neuplatzierung jeder DIMM-Standort durch folgende Schritte:
- Schalten Sie das System aus und entfernen Sie das Netzkabel.
- Identifizieren Sie den DIMM-Standort, an dem Sie erneut einsetzen möchten. Lesen Sie die technischen Produktspezifikationen für Ihre Serverplattform, um den DIMM-Standort zu identifizieren.
- Führen Sie den erneuten Sitz des identifizierten DIMM durch.
- Stecken Sie das Netzkabel ein und fahren Sie das System wieder an .
- Achten Sie 24 Stunden lang auf jeglichen Ecc-Fehler.
- Wenn der ECC-Fehler an demselben DIM-Speicherort weiterhin auftritt, an dem erneut eingesteckt wurde, generieren und senden Sie dann die SEL- und Debug-Protokolle, die beide von der BMC-Webkonsole an den Intel Kundensupport generiert wurden.
- Die erweiterten Speichertestfunktionen (AMT) wurden im BIOS und Firmware-Stack eingeführt, beginnend mit der BIOS-Revision 02.01.0014 für die Intel® Serversysteme S2600BP, S2600WF und S2600ST; und ab der BIOS-Revision 22.01.0097 für den Intel® Serversystem S9200WK. Für diese Produkte empfehlen Sie, die Erweiterten Speichertests (AMT) und PPR-Funktionen (Post Package Repair) über das BIOS-Setup-Utility zu aktivieren, um eine vollständige Überprüfung des Speicherzustands durchzuführen. Weitere Einzelheiten finden Sie in Kapitel 5 der Richtlinien für den Austausch von Speicher und erweitertem Speichertest für Intel® Serverprodukte basierend auf dem Intel® 62X Chipsatz – Whitepaper.
Notizen | Die Error Correction Code (ECC)-Fehler sind selbstkorrigierend. Je nach RAS-Konfiguration (Reliability Availability Serviceability) des Speichers kann der Integrierte Speichercontroller (IMC) das betroffene DIMM offline nehmen. |
Für verschiedene Intel Serverplattformen gibt es einige Unterschiede in der Ereignisdefinition. Lesen Sie dazu den Fehlerbehebungsleitfaden für das Systemereignisprotokoll Für Ihre Serverplattform | |
Intel empfiehlt, das System-BIOS auf die neueste version für Ihre Serverplattform herunterzuladen und zu aktualisieren. | |
Wenn es sich bei dem System um einen Intel® Data-Center-Block für Nutanix* Enterprise Cloud handelt, besuchen Sie stattdessen die Seite Nutanix* Life Cycle Manager. Eine Liste der Hardware- und Firmware-Kompatibilität finden Sie auf der Nutanix* Hardware- und Firmware-Kompatibilitätsseite. |