Grundlegende Diagnose für korrigierbare/nicht korrigierbare ECC-Speicherfehler mit Intel® Server-Mainboards

Dokumentation

Fehlerbehebung

000024007

21.12.2023

Hinweis Unterstützung bei der in diesem Artikel beschriebenen Fehlerbehebung finden Sie in den Technischen Produktspezifikationen für Ihre Serverplattform.

Was wird angezeigt?

Korrigierbare und/oder nicht korrigierbare ECC-Ereignisse (Error Correcting Code) für Speichermodule. Zum Beispiel:

Mmry ECC-Sensor SMI-Handler-Warnung Speicher CPU: 1, DIMM: D0 DIMM-Rang: 1. - Korrigierbarer ECC- / anderer korrigierbarer Speicherfehler - Bestätigt.

Was ist ein korrigierbares Fehlerereignis mit Memory Error Correction Code (ECC)?

Der korrigierbare ECC-Fehler stellt einen Schwellenwertüberlauf für ein bestimmtes Dual-In-line-Speichermodul (DIMM) innerhalb eines bestimmten Zeitrahmens dar.


Problembehebung:

Speicherdatenfehler werden als korrigierbar oder nicht korrigierbar protokolliert. Befolgen Sie die nachstehenden Anweisungen, je nach aufgetretenem Fehlertyp:

error types

Notizen
  • Wenn kein schwerwiegendes Problem vorliegt (Purple Screen of Death (PSOD) oder unerwarteter Neustart) und der korrigierbare ECC-Fehler, einschließlich des ADDDC-Fehlers (Adaptative Double Device Data Correction), weniger als 10 Ereignisse alle 24 Stunden für jeden DIMM-Standort beträgt, der innerhalb des Schwellenwerts liegt, wird empfohlen, den Server an jedem DIMM-Standort, der das Ereignis auslöst, auf ein erneutes Auftreten eines ECC-Fehlers zu überwachen .
  • Wenn ein schwerwiegendes Problem auftritt (Purple Screen of Death (PSOD) oder unerwarteter Neustart) und der korrigierbare ECC-Fehler, einschließlich des ADDDC-Fehlers (Adaptative Double Device Data Correction), weniger als 10 Ereignisse alle 24 Stunden für jede DIMM-Position beträgt, wird empfohlen, jede DIMM-Position durch die folgenden Schritte neu einzusetzen:
    1. Schalten Sie das System aus und ziehen Sie das Netzkabel ab.
    2. Identifizieren Sie die DIMM-Position, an der Sie wieder eingesetzt werden sollen. Beziehen Sie sich auf die technischen Produktspezifikationen für Ihre Serverplattform, um den DIMM-Speicherort zu ermitteln.
    3. Führen Sie das erneute Einsetzen des identifizierten DIMM durch.
    4. Stecken Sie das Netzkabel ein und schalten Sie das System wieder ein .
    5. Beobachten Sie 24 Stunden lang, ob ein ECC-Fehler erneut auftritt.
    6. Wenn der ECC-Fehler weiterhin an derselben DIM-Position auftritt, an der erneut eingesetzt wurde, generieren und senden Sie die SEL- und Debug-Protokolle , die beide von der BMC-Webkonsole generiert wurden, an Intel Customer Support
  • Die erweiterten Speichertestfunktionen (AMT) wurden im BIOS- und Firmware-Stack eingeführt, beginnend mit der BIOS-Version 02.01.0014 für die® Intel Serversysteme S2600BP, S2600WF und S2600ST; und beginnend mit der BIOS-Revision 22.01.0097 für die Intel® Serversystem S9200WK. Für diese Produkte empfehlen wir, die Funktionen Advanced Memory Test (AMT) und Post Package Repair (PPR) über das BIOS-Setup-Dienstprogramm zu aktivieren, um eine vollständige Überprüfung des Speicherzustands durchzuführen. Weitere Informationen finden Sie in Kapitel 5 der Richtlinie zum Speicheraustausch und zum fortgeschrittenen Speichertest für Intel Serverprodukte auf Basis des® Intel® 62X-Chipsatzes – Whitepaper .

Notizen

Die ECC-Fehler (Error Correction Code) korrigieren sich selbst. Abhängig von der RAS-Konfiguration (Reliability Availability Serviceability) des Speichers kann der Integrated Memory Controller (IMC) das betroffene DIMM offline schalten.

Für verschiedene Intel Serverplattformen gibt es einige Unterschiede in der Ereignisdefinition. Weitere Informationen finden Sie im Handbuch zur Fehlerbehebung bei Systemereignisprotokollen für Ihre Serverplattform

Intel empfiehlt, das System-BIOS herunterzuladen und auf die neueste verfügbare Version für Ihre Serverplattform zu aktualisieren.

Wenn es sich bei dem System um einen Intel® Data Center Block für Nutanix* Enterprise Cloud handelt, besuchen Sie stattdessen die Seite Nutanix* Life Cycle Manager. Eine Liste der Hardware- und Firmware-Kompatibilität finden Sie auf der Nutanix* Hardware- und Firmware-Kompatibilitätsseite.

Zugehörige Themen
Richtlinie zum Speicheraustausch und erweiterter Speichertest für Intel Serverprodukte mit Intel® 62X-Chipsatz – Whitepaper
Die Rolle des ECC-Speichers
Wiederherstellung von einem IERR für Intel® Server-Mainboards
Mein Server stürzt ab und zeigt diesen Fehler an: Processor CPU Machine Chk
Tipps zu Firmwareupdates und Fehlerbehebung
Was ist ein korrigierbares Fehlerereignis mit Memory Error Correction Code (ECC)?
SDLA-Tool So zählen Sie ECC-Fehler