Fehlerbehebungsinhalte zum Auffinden eines defekten Speichermoduls
Wie bestimme ich die korrekte Position der Central Processing Unit (CPU) (1 oder 2) und der Bank mit zwei In-Line-Speichermodulen (DIMM), wenn ein defektes Speichermodul vermutet wird?
Gehen Sie wie unten angegeben vor, basierend auf Diagnoseschritten zum Auffinden des DIMM, das einen IErr-ECC_error verursacht:
Hinweis | Stellen Sie sicher, dass das ipmitool-Tool (siehe IPMI, V2.0, Befehlstesttool) auf diesem Knoten geladen oder zur Ausführung verfügbar ist. Auf diese Weise können Sie das Systemereignisprotokoll (das binär ist) untersuchen. |
Hinweis |
Untersuchen Sie das Systemereignisprotokoll, indem Sie sich die erweiterte Liste wie folgt ansehen:
#sudo ipmitool sel elist | Weniger
1c | 24.08.2018 | 22:51:49 | Speicher Mmry ECC-Sensor | Nicht korrigierbare ECC | Behauptet
1d | 24.08.2018 | 22:51:49 | Speicher Mmry ECC-Sensor | Nicht korrigierbare ECC | Behauptet Anschließend können Sie jeden Eintrag im Systemereignisprotokoll überprüfen, indem Sie sich auf den Hexadezimalwert (HEX) in der ersten Spalte beziehen: #sudo ipmitool sel 0x1c
SEL-Datensatz-ID: 001c Datensatztyp : 02 Zeitstempel : 08/24/2018 22:51:48 Generator ID : 0033 EvM-Revision : 04 Sensortyp: Speicher Sensornummer : 02 Ereignistyp: Sensorspezifisch diskret Ereignisrichtung: Assertionsereignis Ereignisdaten (RAW) : a10103 Ereignisinterpretation : Fehlt Beschreibung: Uncorrectable ECC Sensor-ID : Mmry ECC-Sensor (0x2) Entitäts-ID : 32.1 (Speichergerät) Sensortyp: Speicher (0x0c) |
Debuggen des Protokollspeicherorts der Ereignisdaten (RAW)
- Geben Sie diese Zahl in einen Taschenrechner ein:
- Sehen Sie sich den Binärwert (BIN) an, insbesondere die letzten 8 Bytes. Sehen Sie sich in der Abbildung oben die Bits ganz rechts an (wie hervorgehoben).
- Konvertieren Sie das in eine Dezimalzahl, und wie die folgende Tabelle zeigt, stellen die Bits ganz rechts den DIMM-Sockelwert dar: 0 = A, 1 = B, 2 = C, 3 = D und so weiter.
Die zweite Bits ganz rechts stellen den CPU-Sockel dar.
In diesem Fall ist b0000 = CPU1. b0001 wäre gleich CPU2.
Bei Verwendung von IPMI ist es nicht möglich, den Detaillierungsgrad abzurufen, der auf der webgrafischen Benutzeroberfläche (GUI) des Baseboard Management Controller (BMC) angezeigt wird. Sie können Redfish jedoch verwenden, indem Sie den nächsten Befehl ausführen: curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0.
Hinweis |
skiptoken ist der Ausgangspunkt. Normalerweise werden 50 Datensätze zurückgegeben, sodass skiptoken 0, 50, 100 usw. ist. Am Ende der Antwort erfahren Sie, was das nächste Skiptoken sein soll, um weiterzulesen. |
Alternativ können Sie den Intel® Server Debug and Provisioning Tool (Intel® SDP Tool) Ihres Server-Manager-Systems verwenden, indem Sie den Befehl SDPtool <ipv4> <Benutzername> <Passwort> debuglog <Dateiname> ausführen.