Signaler et réparer les hôtes défectueux avec des TPU en mode "Toute capacité"

Si vous constatez des problèmes sur une VM en mode "Toute capacité" que vous ne parvenez pas à résoudre autrement (par exemple, des métriques de latence ICI systématiquement élevées ou une température systématiquement élevée par rapport aux pairs), nous vous recommandons de signaler son hôte comme défectueux. Lorsque vous signalez un hôte comme défectueux, Compute Engine le marque comme tel et répare automatiquement la VM en effectuant une maintenance de l'hôte. En mode "Toute la capacité", les VM TPU ne sont pas migrées vers un autre hôte pendant la réparation. Au lieu de cela, elles seront redémarrées sur le même hôte si la capacité est suffisante. Vous ne pouvez signaler un hôte défectueux que s'il exécute des VM.

Utilisez la commande report-host-as-faulty pour signaler un hôte défectueux à l'aide du paramètre --fault-behavior afin de fournir des informations supplémentaires sur le problème.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Remplacez les éléments suivants :

TPU_NAME : nom de la VM TPU.
FAULT_BEHAVIOR : vous pouvez transmettre l'une des valeurs suivantes :
- PERFORMANCE : utilisez cette option pour signaler une dégradation des performances sur une instance.
- SILENT_DATA_CORRUPTION : utilisez cette option pour signaler toute corruption silencieuse de données suspectée sur une instance.
- BEHAVIOR_UNSPECIFIED : à utiliser pour signaler un problème qui ne correspond à aucun des autres groupes de comportements.
DESCRIPTION : description du problème qui affecte votre VM.
DISRUPTION_SCHEDULE : spécifie le moment où le processus de signalement des erreurs doit être lancé. La valeur par défaut est IMMEDIATE, ce qui lance le processus immédiatement. DISRUPTION_SCHEDULE doit avoir l'une des valeurs suivantes : IMMEDIATE, FUTURE.

L'opération de signalement d'un hôte défectueux prend généralement 10 à 12 minutes. Une fois l'opération de création du rapport terminée, la réparation de l'hôte commence dans la minute qui suit si le calendrier d'indisponibilité est défini sur IMMEDIATE. Si le calendrier d'indisponibilité est défini sur FUTURE, aucune action de réparation n'est effectuée immédiatement. Compute Engine planifie plutôt une réparation si un défaut est détecté à l'avenir. Une fois la réparation lancée, la VM est mise hors tension. Elle peut rester à l'état PENDING jusqu'à ce que l'hôte soit réparé. La réparation de l'hôte défectueux peut prendre entre 3 et 14 jours, voire plus. En mode "Toute la capacité TPU", les VM TPU ne sont pas migrées vers un autre hôte pendant la réparation. Au lieu de cela, ils seront redémarrés sur le même hôte s'il y a suffisamment de capacité.