Grundlegende Diagnose für korrigierbare/nicht korrigierbare ECC-Speicherfehler mit Intel® Server-Mainboards
Hinweis | Unterstützung bei der in diesem Artikel beschriebenen Fehlerbehebung finden Sie in den Technischen Produktspezifikationen für Ihre Serverplattform. |
Was wird angezeigt?
Korrigierbare und/oder nicht korrigierbare ECC-Ereignisse (Error Correcting Code) für Speichermodule. Zum Beispiel:
Mmry ECC-Sensor SMI-Handler-Warnung Speicher CPU: 1, DIMM: D0 DIMM-Rang: 1. - Korrigierbarer ECC- / anderer korrigierbarer Speicherfehler - Bestätigt.
Was ist ein korrigierbares Fehlerereignis mit Memory Error Correction Code (ECC)?
Der korrigierbare ECC-Fehler stellt einen Schwellenwertüberlauf für ein bestimmtes Dual-In-line-Speichermodul (DIMM) innerhalb eines bestimmten Zeitrahmens dar.
Problembehebung:
Speicherdatenfehler werden als korrigierbar oder nicht korrigierbar protokolliert. Befolgen Sie die nachstehenden Anweisungen, je nach aufgetretenem Fehlertyp:
Notizen |
|
- Wenn kein schwerwiegendes Problem vorliegt (Purple Screen of Death (PSOD) oder unerwarteter Neustart) und der korrigierbare ECC-Fehler, einschließlich des ADDDC-Fehlers (Adaptative Double Device Data Correction), weniger als 10 Ereignisse alle 24 Stunden für jeden DIMM-Standort beträgt, der innerhalb des Schwellenwerts liegt, wird empfohlen, den Server an jedem DIMM-Standort, der das Ereignis auslöst, auf ein erneutes Auftreten eines ECC-Fehlers zu überwachen .
- Wenn ein schwerwiegendes Problem auftritt (Purple Screen of Death (PSOD) oder unerwarteter Neustart) und der korrigierbare ECC-Fehler, einschließlich des ADDDC-Fehlers (Adaptative Double Device Data Correction), weniger als 10 Ereignisse alle 24 Stunden für jede DIMM-Position beträgt, wird empfohlen, jede DIMM-Position durch die folgenden Schritte neu einzusetzen:
- Schalten Sie das System aus und ziehen Sie das Netzkabel ab.
- Identifizieren Sie die DIMM-Position, an der Sie wieder eingesetzt werden sollen. Beziehen Sie sich auf die technischen Produktspezifikationen für Ihre Serverplattform, um den DIMM-Speicherort zu ermitteln.
- Führen Sie das erneute Einsetzen des identifizierten DIMM durch.
- Stecken Sie das Netzkabel ein und schalten Sie das System wieder ein .
- Beobachten Sie 24 Stunden lang, ob ein ECC-Fehler erneut auftritt.
- Wenn der ECC-Fehler weiterhin an derselben DIM-Position auftritt, an der erneut eingesetzt wurde, generieren und senden Sie die SEL- und Debug-Protokolle , die beide von der BMC-Webkonsole generiert wurden, an Intel Customer Support
- Die erweiterten Speichertestfunktionen (AMT) wurden im BIOS- und Firmware-Stack eingeführt, beginnend mit der BIOS-Version 02.01.0014 für die® Intel Serversysteme S2600BP, S2600WF und S2600ST; und beginnend mit der BIOS-Revision 22.01.0097 für die Intel® Serversystem S9200WK. Für diese Produkte empfehlen wir, die Funktionen Advanced Memory Test (AMT) und Post Package Repair (PPR) über das BIOS-Setup-Dienstprogramm zu aktivieren, um eine vollständige Überprüfung des Speicherzustands durchzuführen. Weitere Informationen finden Sie in Kapitel 5 der Richtlinie zum Speicheraustausch und zum fortgeschrittenen Speichertest für Intel Serverprodukte auf Basis des® Intel® 62X-Chipsatzes – Whitepaper .
Notizen | Die ECC-Fehler (Error Correction Code) korrigieren sich selbst. Abhängig von der RAS-Konfiguration (Reliability Availability Serviceability) des Speichers kann der Integrated Memory Controller (IMC) das betroffene DIMM offline schalten. |
Für verschiedene Intel Serverplattformen gibt es einige Unterschiede in der Ereignisdefinition. Weitere Informationen finden Sie im Handbuch zur Fehlerbehebung bei Systemereignisprotokollen für Ihre Serverplattform | |
Intel empfiehlt, das System-BIOS herunterzuladen und auf die neueste verfügbare Version für Ihre Serverplattform zu aktualisieren. | |
Wenn es sich bei dem System um einen Intel® Data Center Block für Nutanix* Enterprise Cloud handelt, besuchen Sie stattdessen die Seite Nutanix* Life Cycle Manager. Eine Liste der Hardware- und Firmware-Kompatibilität finden Sie auf der Nutanix* Hardware- und Firmware-Kompatibilitätsseite. |