Funktionsweise von Fault Resilient Booting (FRB) auf Intel Server-Mainboards und Intel® Serversystemen

Dokumentation

Produktinformationen und Dokumente

000007197

11.12.2023


Symptom(e):

  • Was ist FRB?
  • Woher weiß ich, ob es funktioniert?
  • Störungsfreies Booten auf Intel® Servern.


Lösung:

Fehlerresistentes Booten

Der BMC (Baseboard Management Controller) implementiert die FRB-Level 1, 2 und 3. Wenn der Standard-Bootstrap-Prozessor (BSP) den Boot-Vorgang nicht abschließen kann, versucht FRB, mit einem alternativen Prozessor zu starten.

  • FRB-Stufe 1 dient zur Wiederherstellung nach einem BIST-Fehler, der während des POST-Vorgangs erkannt wurde. Diese FRB-Wiederherstellung wird vollständig vom BIOS-Code abgewickelt.
  • FRB-Stufe 2 ist für die Wiederherstellung nach einem Watchdog-Timeout während des POST-Vorgangs vorgesehen. Der Watchdog-Timer für FRB Level 2 ist im BMC implementiert.
  • FRB-Stufe 3 ist für die Wiederherstellung nach einem Watchdog-Timeout beim Hard-Reset oder Einschalten vorgesehen. Dadurch wird Hardwarefunktionalität für diese FRB-Ebene bereitgestellt.

FRB-1

In einem Multiprozessorsystem registriert das BIOS die Anwendungsprozessoren in der Multiprozessor-Tabelle (MP) und den ACPI-APIC-Tabellen. Wenn ein Applikationsprozessor (AP) beim Start durch das BSP die Initialisierung nicht innerhalb einer bestimmten Zeit abschließt, wird davon ausgegangen, dass er nicht funktionsfähig ist. Wenn das BIOS feststellt, dass der BIST eines Anwendungsprozessors fehlgeschlagen ist oder nicht funktionsfähig ist, fordert es den BMC auf, diesen Prozessor zu deaktivieren.

Der BMC generiert dann einen Systemzurücksetz, während der Prozessor deaktiviert wird. Das BIOS erkennt den ausgefallenen Prozessor beim nächsten Boot-Zyklus nicht. Der fehlerhafte Zugriffspunkt (AP) wird weder in der MP-Tabelle noch in den ACPI-APIC-Tabellen aufgeführt und ist für das Betriebssystem unsichtbar. Wenn das BIOS feststellt, dass das BSP BIST fehlgeschlagen ist, sendet es eine Aufforderung an das BMC, den vorhandenen Prozessor zu deaktivieren. Wenn kein alternativer Prozessor verfügbar ist, piept der BMC über den Lautsprecher und hält das System an. Wenn der BMC einen anderen Prozessor finden kann, wird das BSP-Eigentum über einen System-Reset auf diesen Prozessor übertragen.

FRB-2

Der zweite Watchdog-Timer (FRB-2) im BMC wird vom BIOS auf ca. 6 Minuten eingestellt und soll sicherstellen, dass das System den BIOS-POST-Vorgang abschließt. Der FRB-2-Timer ist aktiviert, bevor der FRB-3-Timer deaktiviert wird, um ein ungeschütztes Zeitfenster zu verhindern. Gegen Ende des POST, bevor die Erweiterungs-ROMs initialisiert werden, deaktiviert das BIOS den FRB-2-Timer im BMC.

Wenn das System mehr als 1 GB Speicher enthält und der Benutzer jedes DWORD des Speichers testen möchte, wird der Watchdog-Timer deaktiviert, bevor der erweiterte Speichertest beginnt, da der Speichertest in dieser Konfiguration mehr als 6 Minuten dauern kann. Wenn das System während des POST-Vorgangs hängen bleibt, deaktiviert das BIOS nicht den Timer im BMC, wodurch ein asynchrones System-Reset (ASR) generiert wird.

FRB-3

Der erste Timer (FRB-3) beginnt mit dem Countdown, wenn das System aus dem Hard-Reset kommt, was normalerweise etwa 5 Sekunden dauert. Wenn das BSP erfolgreich zurückgesetzt wurde und mit der Ausführung beginnt, deaktiviert das BIOS den FRB-3-Timer im BMC, indem es das FRB_TIMER_HLT Signal (GPIO) deaktiviert und das System fährt mit dem POST fort. Wenn der Timer abläuft, weil das BSP den BIOS-Code nicht abrufen oder ausführen kann, setzt der BMC das System zurück und deaktiviert den ausgefallenen Prozessor.

Das System ändert das BSP so lange, bis der BIOS POST die Deaktivierung des FRB-3-Timers im BMC hinter sich gelassen hat. Der BMC gibt Signaltoncodes auf dem Lautsprecher aus, wenn kein guter Prozessor gefunden werden kann. Das Durchlaufen aller Prozessoren wird nach dem Zurücksetzen des Systems oder beim Aus- und Wiedereinschalten wiederholt.