Grundlegende Diagnose für korrigierbare/nicht korrigierbare ECC-Speicherfehler mit Intel® Server-Mainboards

Dokumentation

Fehlerbehebung

000024007

10.01.2023

HinweisSupport für die in diesem Artikel beschriebene Fehlerbehebung finden Sie in den technischen Produktspezifikationen für Ihre Serverplattform.

Was wird angezeigt?

Korrigierbare und/oder nicht korrigierbare ECC-Ereignisse (Error Correcting Code) für Speichermodule. Zum Beispiel:

Mmry ECC Sensor SMI Handler Warnspeicher CPU: 1, DIMM: D0 DIMM Rank: 1. - Correctable ECC /other correctable memory error -AsSerted. (Korrektierbare ECC/andere korrekturfähige Speicherfehler ) - Bestätigt.

Was ist ein ecc-correctable Error Event (Speicherfehlerkorrekturcode) ?

Der fehlerbehebbare ECC-Fehler stellt einen Schwellenwertüberlauf für ein bestimmtes Dual-In-Line-Speichermodul (DIMM) innerhalb eines bestimmten Zeitrahmens dar.


Behebung des Problems:

Speicherdatenfehler werden als korrigierend oder nicht korrigierbar protokolliert. Lesen Sie die unten stehenden Anweisungen basierend auf dem angezeigten Fehlertyp:

error types

Notizen
  • Wenn es kein schwerwiegendes Problem gibt (Purple Screen of Death (PSOD) oder einen unerwarteten Neustart) und der korrigierbare ECC-Fehler, einschließlich AddDC-Fehler (Adaptative Double Device Data Correction) weniger als 10 Ereignisse alle 24 Stunden für jeden DIMM-Standort beträgt, der sich innerhalb des Schwellenwerts befindet, empfiehlt es sich, den Server auf alle Ecc-Fehler zu überwachen , die an jedem DIMM-Ort, der das Ereignis auslösen, auftreten.
     
  • Wenn es ein schwerwiegendes Problem (Purple Screen of Death (PSOD) oder einen unerwarteten Neustart gibt und der korrigierbare ECC-Fehler, einschließlich ADDDC-Fehler (Adaptative Double Device Data Correction) geringer ist als 10 Veranstaltungen alle 24 Stunden für jeden DIMM-Standort; es wird empfohlen, Neuplatzierung jeder DIMM-Standort durch folgende Schritte:
    1. Schalten Sie das System aus und entfernen Sie das Netzkabel.
    2. Identifizieren Sie den DIMM-Standort, an dem Sie erneut einsetzen möchten. Lesen Sie die technischen Produktspezifikationen für Ihre Serverplattform, um den DIMM-Standort zu identifizieren.
    3. Führen Sie den erneuten Sitz des identifizierten DIMM durch.
    4. Stecken Sie das Netzkabel ein und fahren Sie das System wieder an .
    5. Achten Sie 24 Stunden lang auf jeglichen Ecc-Fehler.
    6. Wenn der ECC-Fehler an demselben DIM-Speicherort weiterhin auftritt, an dem erneut eingesteckt wurde, generieren und senden Sie dann die SEL- und Debug-Protokolle, die beide von der BMC-Webkonsole an den Intel Kundensupport generiert wurden.
  • Die erweiterten Speichertestfunktionen (AMT) wurden im BIOS und Firmware-Stack eingeführt, beginnend mit der BIOS-Revision 02.01.0014 für die Intel® Serversysteme S2600BP, S2600WF und S2600ST; und ab der BIOS-Revision 22.01.0097 für den Intel® Serversystem S9200WK. Für diese Produkte empfehlen Sie, die Erweiterten Speichertests (AMT) und PPR-Funktionen (Post Package Repair) über das BIOS-Setup-Utility zu aktivieren, um eine vollständige Überprüfung des Speicherzustands durchzuführen. Weitere Einzelheiten finden Sie in Kapitel 5 der Richtlinien für den Austausch von Speicher und erweitertem Speichertest für Intel® Serverprodukte basierend auf dem Intel® 62X Chipsatz – Whitepaper.

Notizen

Die Error Correction Code (ECC)-Fehler sind selbstkorrigierend. Je nach RAS-Konfiguration (Reliability Availability Serviceability) des Speichers kann der Integrierte Speichercontroller (IMC) das betroffene DIMM offline nehmen.

Für verschiedene Intel Serverplattformen gibt es einige Unterschiede in der Ereignisdefinition. Lesen Sie dazu den Fehlerbehebungsleitfaden für das Systemereignisprotokoll Für Ihre Serverplattform

Intel empfiehlt, das System-BIOS auf die neueste version für Ihre Serverplattform herunterzuladen und zu aktualisieren.

Wenn es sich bei dem System um einen Intel® Data-Center-Block für Nutanix* Enterprise Cloud handelt, besuchen Sie stattdessen die Seite Nutanix* Life Cycle Manager. Eine Liste der Hardware- und Firmware-Kompatibilität finden Sie auf der Nutanix* Hardware- und Firmware-Kompatibilitätsseite.

 

Verwandte Themen
Richtlinien für den Speicherersatz und erweiterter Speichertest für Intel® Serverprodukte basierend auf dem Intel® 62X Chipsatz – Whitepaper
Die Rolle des ECC-Speichers
Wie man sich von einem IERR für Intel® Server-Mainboards wiederherstellen kann
Mein Server stürzt ab und zeigt diesen Fehler an: Processor CPU Machine Chk
Für Firmware-Updates und Tipps zur Fehlerbehebung
Was ist ein ecc-correctable Error Event (Speicherfehlerkorrekturcode) ?
DASA-Tool – So zählen Sie ECC-Fehler