Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird beschrieben, wie Lebenszyklusverwaltungsvorgänge auf Bare Metal Machines (BMM) ausgeführt werden. Diese Schritte sollten für die Problembehandlung verwendet werden – entweder für die Wiederherstellung nach Fehlern oder beim Ausführen von Wartungsaktionen.
Lesen Sie zunächst die Ratschläge im Artikel "Best Practices for Bare Metal Machine Operations ", bevor Sie mit vorgängen fortfahren.
Die aufgeführten fett formatierten Aktionen gelten als störend (Ausschalten, Neu starten, Erneutes Abbilden, Ersetzen).
Die Cordon-Aktion ohne den evacuate Parameter wird nicht als störend betrachtet, während Cordon mit dem evacuate Parameter als störend betrachtet wird.
- Ausschalten eines Bare-Metal-Computers
- Starten einer Bare Metal-Maschine
- Neustarten eines Bare-Metal-Computers
- Unplanbarmachen eines Bare-Metal-Computers („cordon“ ohne „evacuate“, entlädt den Knoten nicht)
- Unplanbarmachen eines Bare-Metal-Computers („cordon“ mit „evacuate“, entlädt den Knoten)
- Planbarmachen eines Bare-Metal-Computers („uncordon“)
- Durchführen eines Reimagings eines Bare-Metal-Computers
- Ersetzen eines Bare-Metal-Computers
Aktionsvergleich
In der folgenden Tabelle sind die einzelnen Aktionen zusammengefasst, mit denen Sie den geeigneten Vorgang für Ihr Szenario auswählen können:
| Maßnahme | Zweck | Datenverlust | Ausfallzeit | Hardwareänderung | Zeitlimit |
|---|---|---|---|---|---|
| Cordon | Knoten als nicht planbar markieren | Nichts | Nichts | Nein | 10 Minuten |
| Uncordon | Planungseinschränkung entfernen | Nichts | Nichts | Nein | 10 Minuten |
| Ausschalten | Schalten Sie die Maschine ordnungsgemäß herunter. | Nichts | Yes | Nein | 40 Minuten |
| Start | Einschalten eines Computers | Nichts | Recovery | Nein | 30 Minuten |
| Neustarten | Starten Sie den Computer neu, während Betriebssystem und Daten beibehalten werden | Nichts | Minuten | Nein | 40 Minuten |
| Reimaging durchführen | Betriebssystemimage auf vorhandener Hardware neu installieren | Alles | Stunden | Nein | 3 Stunden |
| Replace | Austauschen physischer Hardware mit neuer Maschine | Alles | Stunden | Yes | 4 Stunden |
Auswählen der richtigen Aktion
Verwenden Sie die folgenden Anleitungen, um zu bestimmen, welche Aktion am besten zu Ihrer Situation passt:
| Symptom | Empfohlene Aktion |
|---|---|
| Vorbereiten des Knotens für die Wartung | Cordon |
| Planung nach Wartung fortsetzen | Uncordon |
| Computer muss zur Wartung offline sein | Ausschalten |
| Offlinecomputer wieder online schalten | Start |
| Computer benötigt Neustart | Neustarten |
| Beschädigtes Betriebssystem oder Softwareprobleme | Reimaging durchführen |
| Hardwarefehler erkannt und repariert | Replace |
| Benötigen Sie eine Neuinstallation des Betriebssystems. | Reimaging durchführen |
| Ersetzen des physischen Servers | Replace |
| Das System reagiert aufgrund temporärer Softwareprobleme nicht. | Neustarten |
| Fortlaufende Wartung über Knoten hinweg | Cordon |
| BMC-Anmeldedaten benötigen einen manuellen Wechsel | Replace |
| Firmware-Abstimmung erforderlich | Replace |
Überlegungen zum Steuerungsebenenknoten
Steuerebenenknoten erfordern beim Ausführen von Lebenszyklusaktionen zusätzliche Vorsicht. Die Plattform implementiert eine spezielle Handhabung für Steuerebenenknoten, um das Cluster quorum und die Verfügbarkeit aufrechtzuerhalten:
- Einzeln: Die Plattform verhindert mehrere gleichzeitige störende Aktionen (Neustart, Erneutes Abbilden, Ersetzen) auf Steuerebenenknoten. Wenn bereits ein anderer Steuerebenenknoten eine störende Aktion durchläuft, werden neue Anforderungen blockiert, bis diese Aktion abgeschlossen ist und der Knoten dem Cluster erneut beitritt.
- Quorumsicherheit: Die Plattform überprüft, ob ausreichend gesunde Steuerungsebenenknoten verbleiben, bevor sie störende Vorgänge zulassen. Aktionen können abgebrochen werden, wenn das Fortfahren das Cluster-Quorum beeinträchtigen würde.
- Erweiterte Koordination: Neustarten, Erneutes Abbilden und Ersetzen von Aktionen auf Steuerebenenknoten umfassen zusätzliche Schritte, um den Knoten sicher zu entfernen und wieder an der Steuerebene teilzuschließen.
Sperren von Aktionen
Es kann jeweils nur eine Lebenszyklusaktion auf einem BMM ausgeführt werden. Wenn Sie versuchen, eine neue Aktion zu starten, während eine andere ausgeführt wird, wird die Anforderung abgelehnt. Bevor Sie eine neue Aktion starten:
- Überprüfen Sie, ob eine vorherige Aktion abgeschlossen wurde, indem Sie das BMM
actionStatesim Azure-Portal oder über die API überprüfen. - Wenn eine Aktion hängen bleibt, untersuchen Sie die Ursache, bevor Sie eine andere Aktion versuchen.
Vorsicht
Führen Sie keine Maßnahmen gegen Steuerungs- oder Verwaltungsebenenserver durch, ohne sich zuerst mit dem Microsoft-Supportmitarbeiter zu beraten. Dies kann sich auf die Integrität des Operator Nexus Clusters auswirken.
Von Bedeutung
Mehrere störende Befehlsanforderungen für einen Kubernetes Control Plane (KCP)-Knoten werden abgelehnt. Diese Überprüfung erfolgt, um die Integrität der Nexus Cluster-Instanz aufrechtzuerhalten und zu vermeiden, dass mehrere KCP-Knoten aufgrund gleichzeitig störender Aktionen nichtoperational werden. Abgelehnte Störendaktionsbefehle können entweder darauf zurückzuführen sein, dass sie bereits gegen einen anderen KCP-Knoten ausgeführt werden oder wenn der vollständige KCP nicht verfügbar ist. Wenn mehrere Knoten funktionsuntüchtig werden, wird der Schwellenwert für ein fehlerfreies Quorum der Kubernetes-Steuerungsebene überschritten.
Die aufgeführten Aktionen gelten als störend für BareMetal Machines (BMM):
- Ausschalten eines BMM
- Erneutes Starten eines BMM
- Unplanbarmachen eines BMM („cordon“ mit „evacuate“, entlädt den Knoten)
- Durchführen eines Reimagings für einen BMM
- Ersetzen eines BMM
Nur die nicht störenden Aktionen beibehalten.
- Starten eines BMM
- Unplanbarmachen eines BMM („cordon“ ohne „evacuate“, entlädt den Knoten nicht)
- Planbarmachen eines BMM („uncordon“)
Tipp
In Version 2509.1 und höher können Sie aktuelle oder laufende BMM-Aktionen im Azure-Portal überwachen. Weitere Informationen finden Sie unter Monitor-Status in Bare Metal Machine JSON-Eigenschaften.
Voraussetzungen
- Installieren Sie die neueste Version der passenden CLI-Erweiterungen.
- Fordern Sie den Zugriff an, um die CLI-Erweiterungsbefehle für Azure Operator Nexus Network Fabric (NF) und Network Cloud auszuführen.
- Melden Sie sich bei der Azure CLI an, und wählen Sie das Abonnement aus, in dem der Cluster bereitgestellt wird.
- Sammeln Sie die folgenden Informationen:
- Abonnement-ID (
SUBSCRIPTION) - Clustername (
CLUSTER) - Ressourcengruppe (
CLUSTER_RG) - Verwaltete Ressourcengruppe (
CLUSTER_MRG) – BareMetal Machines (BMM)-Ressourcen sind in der Verwalteten Ressourcengruppe vorhanden. - BareMetal Machine Name (
BMM_NAME), der Lebenszyklusverwaltungsvorgänge erfordert
- Abonnement-ID (
Ausschalten einer Bare Metal-Maschine
Die Ausschaltaktion fährt eine Bare-Metal-Maschine sorgfältig herunter, sodass sie für den Cluster nicht verfügbar ist, während ihre Daten erhalten bleiben. Der Computer verbleibt in einem ausgeschalteten Zustand, bis er erneut explizit gestartet wurde. Diese Aktion ist nützlich für Wartungsszenarien, in denen die Hardware offline sein muss, aber keine Erneute Bereitstellung erforderlich ist.
Von Bedeutung
Es gibt selten Fälle, in denen die Ausführung von Nexus-VMs nach dem Herunterfahren oder Neustart von BMM fehlschlägt. Um diese Fälle zu verhindern, schalten Sie alle virtuellen Computer auf dem BMM aus, bevor Sie das BMM ausschalten oder neu starten. Anweisungen zum Auffinden der Workloads, die auf einem BMM ausgeführt werden, finden Sie unter dem cordon Befehl.
Verwenden Sie den power-off Befehl, wenn der Computer vollständig offline geschaltet werden muss, z. B. für physische Wartung, für die der Computer heruntergefahren werden muss, oder um den Stromverbrauch für nicht verwendete Kapazität zu reduzieren.
Durch diesen Befehl wird der angegebene Bare-Metal-Computer (power-off) neu gestartet (bareMetalMachineName).
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Starten einer Bare Metal-Maschine
Die Startaktion schaltet eine zuvor ausgeschaltete Bare-Metal-Maschine ein, bringt sie wieder online und macht sie für den Cluster verfügbar. Diese Aktion ist die Umkehrung der Einschaltaktion und stellt den Computer in einen Betriebszustand wieder her, ohne das Betriebssystem neu zu installieren oder Daten zu verlieren.
Verwenden Sie den start Befehl, wenn ein ausgeschalteter Computer wieder online gebracht werden muss, z. B. beim Wiederherstellen einer Ausschaltung oder beim Wiederherstellen der Kapazität nach der Wartung.
Hinweis
Nach einem Startvorgang, falls die Maschine vor dem Ausschalten abgesperrt wurde, müssen Sie möglicherweise einen uncordon Befehl ausführen, damit Workloads auf dem Knoten geplant werden können.
Durch diesen Befehl wird der angegebene Bare-Metal-Computer (start) neu gestartet (bareMetalMachineName).
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Neustarten eines Bare-Metal-Computers
Die Neustartaktion führt einen kontrollierten Neustart der Bare-Metal-Maschine durch. Im Gegensatz zum Einschalten, gefolgt vom Start, koordiniert die Neustartaktion das Herunterfahren und Starten als einzelner Vorgang, um sicherzustellen, dass Workloads ordnungsgemäß beendet werden und der Computer nach dem Neustart erneut an dem Cluster teilnehmen wird. Das Betriebssystem und alle Daten auf dem Computer bleiben erhalten.
Von Bedeutung
Es gibt selten Fälle, in denen die Ausführung von Nexus-VMs nach dem Herunterfahren oder Neustart von BMM fehlschlägt. Um diese Fälle zu verhindern, schalten Sie alle virtuellen Computer auf dem BMM aus, bevor Sie das BMM ausschalten oder neu starten. Anweisungen zum Auffinden der Workloads, die auf einem BMM ausgeführt werden, finden Sie unter dem cordon Befehl.
Verwenden Sie den restart Befehl, wenn der Computer nicht reagiert, die Hardware jedoch fehlerfrei ist, ein Neustart erforderlich ist, um Konfigurationsänderungen anzuwenden, oder temporäre Softwareprobleme müssen gelöscht werden. Bei der Neustartaktion handelt es sich um den am wenigsten störenden Vorgang unter denen, die zu Ausfallzeiten führen.
Während eines Neustarts:
- Cordons the node to prevent new workload scheduling
- Wartet, bis Workloads ordnungsgemäß beendet werden
- Schaltet die Hardware aus
- Aktiviert und wartet, bis der Knoten erneut am Cluster teilnehmen kann.
Durch diesen Befehl wird der angegebene Bare-Metal-Computer (restart) neu gestartet (bareMetalMachineName).
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Unplanbarmachen eines Bare-Metal-Computers („cordon“)
Die Cordon-Aktion kennzeichnet eine Bare-Metal-Maschine als ungeplant und verhindert, dass neue Arbeitslasten auf dem Knoten platziert werden. Im Gegensatz zum Ausschalten oder Neustart bleibt der Computer eingeschaltet, und vorhandene Workloads werden weiterhin ausgeführt. Diese Aktion wird häufig als vorbereitenden Schritt vor Wartungsvorgängen oder zum Isolieren eines Knotens für die Problembehandlung verwendet.
Bei der Ausführung des Befehls cordon werden Operator Nexus-Workloads bei Festlegung von cordon nicht auf dem Bare-Metal-Computer geplant.
Jeder Versuch, eine Workload auf einer cordoned Bare Metal Machine zu erstellen, führt dazu, dass die Workload auf den pending Zustand gesetzt wird.
Vorhandene Workloads werden weiterhin auf dem Bare-Metal-Computer ausgeführt, es sei denn, die Workloads werden entladen.
Verwenden Sie Cordon, wenn:
- Sie müssen verhindern, dass neue Workloads auf einem Knoten geplant werden.
- Durchführen der Rollwartung über mehrere Knoten hinweg
- Problembehandlung für einen Knoten bei gleichzeitiger Ausführung vorhandener Workloads
Hinweis
Die Plattform kann aufgrund von erkannten Hardwareproblemen wie Port-Flapping, NIC-Fehlern oder LACP-Problemen automatisch absperren. Wenn Sie einen Uncordon-Befehl ausführen, werden sowohl Ihr Cordon als auch alle auf der Plattform angewendeten Cordons gelöscht. Wenn der Knoten jedoch aufgrund eines nicht behobenen Hardwareproblems weiterhin eingeschränkt ist, wird die Freigabe abgelehnt.
Entladen von Workloads auf Bare-Metal-Computern
Der Cordon-Befehl unterstützt den evacuate Parameter, für den der Standardwert False bedeutet, dass der cordon Befehl die Planung neuer Workloads verhindert.
Um Arbeitslasten mit dem cordon-Befehl zu entlasten, muss der evacuate-Parameter auf True gesetzt werden.
Die Workloads, die auf der Bare-Metal-Machine ausgeführt werden, sind stopped und die Bare-Metal-Machine wird in den Zustand pending versetzt.
Hinweis
Nexus-Management-Workloads werden auch dann weiterhin auf der Bare-Metal-Maschine ausgeführt, wenn der Server gesperrt und geräumt wird.
Es ist Best Practice, den evacuate-Wert auf True festzulegen, wenn man versucht, Wartungsarbeiten an einem Bare-Metal-Server durchzuführen.
Weitere bewährte Methoden, die Sie befolgen möchten, finden Sie unter "Best Practices for Bare Metal Machine Operations".
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Führen Sie den folgenden Befehl aus, um zu ermitteln, ob workloads derzeit auf einem Bare Metal-Computer ausgeführt werden.
Für Virtual Machines:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Für Nexus Kubernetes-Clusterknoten: (Erfordert die Anmeldung beim Nexus Kubernetes-Cluster)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Planbarmachen eines Bare-Metal-Computers („uncordon“)
Durch die Uncordon-Aktion wird die Planungseinschränkung von einem Bare-Metal-Server entfernt, sodass neue Workloads auf dem Knoten platziert werden können. Diese Aktion ist die Umkehrung der Cordon-Aktion und wird in der Regel ausgeführt, nachdem die Wartung abgeschlossen ist. Die Aktion "Freigeben" entfernt auch alle automatischen Cordons, die die Plattform aufgrund von erkannten Hardwareproblemen gesetzt haben könnte.
Alle Workloads im Zustand pending auf dem Bare-Metal-Computer sind restarted, wenn der Bare-Metal-Computer uncordoned ist.
Verwenden Sie "Uncordon" in folgenden Fällen:
- Die Wartung ist abgeschlossen, und der Knoten sollte die normale Planung fortsetzen.
- Ein Hardwareproblem wurde behoben, und das automatische Kabel sollte gelöscht werden.
- Der Knoten ist bereit, neue Workloads erneut anzunehmen.
Hinweis
Für Rechenknoten, wenn ein Knoten aufgrund eines Hardwareproblems degradiert ist und von der Plattform automatisch abgesperrt wurde, wird die Entkorden-Aktion abgelehnt, bis das zugrunde liegende Hardwareproblem behoben ist. Die Fehlermeldung gibt an, dass der Knoten herabgestuft wird und welche Bedingung die Fehlerkorrektur verhindert. Dieser Schutz verhindert, dass Arbeitsauslastungen auf Knoten mit bekannten Hardwareproblemen versehentlich geplant werden.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Durchführen eines Reimagings eines Bare-Metal-Computers
Die Reimage-Aktion installiert das Betriebssystem vollständig auf dem Bare Metal-Computer neu und gibt es in einen sauberen Zustand zurück. Der vorhandene Maschine wird deprovisioniert, der Datenträger wird gelöscht, und ein neues OS-Image wird bereitgestellt. Nach dem Reimaging wird der Computer erneut mit derselben Identität (Hostname, IP-Adressen) am Cluster, aber mit einem frisch installierten Betriebssystem erneut teilnehmen. Verwenden Sie diese Aktion, wenn Softwareprobleme nicht durch einen Neustart behoben werden können.
Dieser Prozess stellt das Laufzeitimage auf dem Zielcomputer Bare Metal erneut bereit und führt die Schritte aus, um den Cluster mit denselben Bezeichnern erneut zu beitreten.
Reimage verwenden, wenn:
- Das Betriebssystem ist beschädigt oder instabil geworden.
- Ein Neustart ist erforderlich, ohne die Hardware zu ändern.
- Die Softwarekonfiguration hat sich über die Wiederherstellung hinaus bewegt
Während einer Neuinstallation durchläuft das System die folgenden Phasen:
- Deprovisionierung: Löscht den vorhandenen Computer, löst Datenträgerzurücksetzung und Abschaltung aus.
- Bereitstellung: Erstellt eine neue Maschine mit frischem Betriebssystemimage.
- Cloud Init: Wartet darauf, dass die neu aufgesetzte Maschine die Initialisierung abschließt und wieder dem Cluster beitritt.
Hinweis
Sowohl das Umbilden als auch das Ersetzen führen zu einem frisch bereitgestellten Computer, unterscheiden sich aber auf wichtige Weise. Reimage installiert das Betriebssystem auf derselben Hardware neu, während beim Austausch die physische Hardware vollständig ersetzt wird. Verwenden Sie Reimage bei softwarebezogenen Problemen und ersetzen Sie defekte Hardware.
Als bewährte Methode sollten Sie sicherstellen, dass die Arbeitslasten des Bare-Metal-Computers mithilfe des cordon-Befehls evakuiert werden, wobei der Parameter evacuate auf True gesetzt ist. Dies muss vor der Ausführung des reimage-Befehls geschehen.
Weitere bewährte Methoden, die Sie befolgen möchten, finden Sie unter "Best Practices for Bare Metal Machine Operations".
Von Bedeutung
Vermeiden Sie Schreib- oder Bearbeitungsaktionen auf dem Knoten, die über den Zugriff auf Bare Metal Machine durchgeführt werden.
Die reimage Aktion ist erforderlich, um den Microsoft-Support wiederherzustellen, und alle Änderungen an dem Bare Metal Machine gehen verloren, während der Knoten in den erwarteten Zustand wiederhergestellt wird.
Warnung
Führen Sie nicht mehrere baremetalmachine replace Befehle reimage gleichzeitig für dieselbe BareMetal Machine (BMM)-Ressource aus.
Das gleichzeitige Ausführen von replace und reimage bringt die Server in einen nicht betriebsbereiten Zustand.
Stellen Sie sicher, dass alle replace/reimage des BMM vollständig abgeschlossen sind, bevor Sie weitere starten.
Vermeiden Sie darüber hinaus das Ausführen sequenzieller reimage Aktionen für ein BMM, das eine replace Aktion soeben abgeschlossen hat, es sei denn, der angegebene Wartungsvorgang wird ausgeführt.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Ersetzen eines Bare-Metal-Computers
Die Ersetzungsaktion integriert neue oder reparierte physische Hardware in den Cluster. Vor der Bereitstellung der neuen Hardware überprüft das System, ob die Ersatzhardware Anforderungen erfüllt, indem BMC-Konnektivität getestet, Anmeldeinformationen überprüft und Netzwerkverbindungen überprüft werden. Nachdem die Überprüfung bestanden wurde, wird der alte Computer aus dem Betrieb genommen, und die Austauschhardware wird mit einem frischen OS-Image bereitgestellt. Der Computer wird dann erneut mit derselben logischen Identität an dem Cluster teilnehmen.
Nach dem Ersetzen von Komponenten wie Hauptplatine oder Netzwerkschnittstellenkarte (Network Interface Card, NIC) ändert sich die MAC-Adresse von Bare Metal Machine; Die iDRAC-IP-Adresse und der Hostname bleiben jedoch gleich.
replace
muss nach jedem Wartungsvorgang an der Hardware ausgeführt werden. Weitere Informationen finden Sie unter Bewährte Methoden für das Ersetzen von Bare-Metal-Computern.
Verwenden Sie "Ersetzen" in folgenden Fällen:
- Hardwarefehler (Datenträger, Arbeitsspeicher, CPU, NIC)
- Für die physische Wartung ist ein Austausch des Chassis erforderlich.
- BMC-Anmeldeinformationen müssen zusammen mit Hardware aktualisiert werden
- Ersetzte Hardwarekomponenten erfordern synchronisierte Firmware mit der Plattform.
Während eines Ersetzungsvorgangs durchschreitet das System die folgenden Phasen:
- Hardwareüberprüfung: Überprüft die Anforderungen der Ersatzhardware (BMC-Anmeldeinformationen, Seriennummer, MAC-Adressen)
- Aufheben der Bereitstellung: Entfernt den alten Computer aus der Clustersteuerung und löscht zugeordnete Ressourcen.
- Bereitstellung: Registriert, prüft und stellt die Ersatzhardware fest.
- Cloud Init: Wartet auf den Ersatzcomputer, um dem Cluster beizutreten und bereit zu werden
Ab der Version 2506.2 kann der Kennwortwert für iDRAC als Key Vault Uniform Resource Identifier (URI) oder als Kennwortwert bereitgestellt werden. Siehe Key Vault-Anmeldeinformationen. Die Verwendung eines URI anstelle eines Nur-Text-Kennworts bietet zusätzliche Sicherheit.
Warnung
Führen Sie nicht mehrere baremetalmachine replace Befehle reimage gleichzeitig für dieselbe BareMetal Machine (BMM)-Ressource aus.
Das gleichzeitige Ausführen von replace und reimage bringt die Server in einen nicht betriebsbereiten Zustand.
Stellen Sie sicher, dass alle replace/reimage des BMM vollständig abgeschlossen sind, bevor Sie weitere starten.
Vermeiden Sie darüber hinaus das Ausführen sequenzieller reimage Aktionen für ein BMM, das eine replace Aktion soeben abgeschlossen hat, es sei denn, der angegebene Wartungsvorgang wird ausgeführt.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<PASSWORD_URI or IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID> \
--safeguard-mode <"All" or "None">
Von Bedeutung
Zum Ersetzen von Aktionen, die mit der API-Version 2025-07-01-preview und höher vorgenommen wurden: Standardmäßig verwendet die Ersetzungsaktion einen Schutz, der verhindert, dass ein fehlerfreier Computer (eingeschaltet, bereit, bereitgestellt, in Cluster eingebunden) ersetzt wird, um unnötige störende Vorgänge zu vermeiden. Wenn versucht replace wird, während der Computer fehlerfrei ist, wird die Aktion mit der folgenden Antwort abgelehnt:
(action rejected) cannot replace healthy machine (powered on, ready, provisioned, joined to cluster). Use --safeguard-mode None to override
Code: action rejected
Message: cannot replace healthy machine (powered on, ready, provisioned, joined to cluster). Use --safeguard-mode None to override
Um den Schutz außer Kraft zu setzen, geben Sie Folgendes an --safeguard-mode None:
Wenn die replace Aktion aufgrund eines Hardwareüberprüfungsfehlers fehlschlägt, wird der spezifische Fehler oder Testfehler in der replace Antwort angezeigt, wie in den folgenden Beispielen gezeigt.
Diese Informationen finden Sie auch im Aktivitätsprotokoll für die Bare Metal Machine (Operator Nexus).
Der Fehlercode und die Fehlermeldung sind auch in den JSON-Eigenschaften des entsprechenden BareMetalMachines_Replace Vorgangs enthalten.
Beispiel 1: Die Hardwareüberprüfung schlägt aufgrund ungültiger Key Vault-URI für BMC-Anmeldeinformationen (Baseboard Management Controller) fehl.
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=$KEY_VAULT_URI username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(failed to retrieve password from key vault) failed to get secret value from key vault: failed to get cluster key vault secret
Code: failed to retrieve password from key vault
Message: failed to retrieve password from key vault
Response: 400 Bad Request
Beispiel 2: Die Hardwareüberprüfung schlägt aufgrund ungültiger BMC-Anmeldeinformationen (Baseboard Management Controller) fehl.
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Code: None
Message: BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Hinweis
Wenn bei der Hardwareüberprüfung aufgrund von BMC-Anmeldeinformations-Authentifizierungsproblemen (fehlende Autorisierung) ein Fehler auftritt, wird die Aktion abgelehnt, der Bare-Metal-Computer jedoch nicht als fehlerhaft gekennzeichnet oder in einen Fehlerzustand versetzt. Der Bare-Metal-Computer behält seinen aktuellen Betriebsstatus bei, während die Hardwareüberprüfung den Fehler der Anmeldeinformationsauthentifizierung meldet.
Beispiel 3: Hardwareüberprüfung schlägt aufgrund eines Netzwerkfehlers fehl
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Code: None
Message: Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Weitere Informationen zur Problembehandlung bei Hardwareüberprüfungsfehlern finden Sie unter "Problembehandlung bei Hardwareüberprüfungsfehlern".