Segnala e ripara host difettosi con TPU in modalità All Capacity

Se noti problemi su una VM in modalità All Capacity che non riesci a risolvere in altro modo, ad esempio metriche di latenza ICI costantemente elevate o temperatura costantemente elevata rispetto alle VM peer, ti consigliamo di segnalare l'host come difettoso. Quando segnali un host come difettoso, Compute Engine lo contrassegna come tale e ripara automaticamente la VM eseguendo la manutenzione dell'host. Con la modalità Tutta la capacità, le VM TPU non vengono migrate a un altro host durante la riparazione. Verranno invece riavviati sullo stesso host se la capacità è sufficiente. Puoi segnalare solo un host difettoso che ha VM in esecuzione.

Utilizza il comando report-host-as-faulty per segnalare un host difettoso utilizzando il parametro --fault-behavior per fornire ulteriori informazioni sul problema.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Sostituisci quanto segue:

  • TPU_NAME: il nome della VM TPU.
  • FAULT_BEHAVIOR: puoi passare uno dei seguenti valori:

    • PERFORMANCE: utilizza questo campo per segnalare un peggioramento delle prestazioni di un'istanza.
    • SILENT_DATA_CORRUPTION: utilizza questo comando per segnalare eventuali sospetti di danneggiamento silenzioso dei dati su un'istanza.
    • BEHAVIOR_UNSPECIFIED: utilizza questa opzione per segnalare un problema che non rientra negli altri gruppi di comportamenti.
  • DESCRIPTION: una descrizione del problema che interessa la tua VM.

  • DISRUPTION_SCHEDULE: specifica la tempistica per l'avvio della procedura di segnalazione dei guasti. Il valore predefinito è IMMEDIATE, che avvia immediatamente la procedura. DISRUPTION_SCHEDULE deve essere uno dei seguenti valori: IMMEDIATE, FUTURE.

In genere, il completamento dell'operazione di segnalazione di un host difettoso richiede 10-12 minuti. Una volta completata l'operazione di report, la riparazione dell'host inizia entro un minuto se la pianificazione dell'interruzione è impostata su IMMEDIATE. Se la pianificazione dell'interruzione è impostata su FUTURE, non viene intrapresa alcuna azione di riparazione immediata; al contrario, Compute Engine pianifica una riparazione se viene rilevato un guasto in futuro. Una volta avviata la riparazione, la VM verrà spenta. La VM potrebbe rimanere nello stato PENDING finché l'host non viene riparato. La riparazione dell'host difettoso può richiedere 3-14 giorni o più. Nella modalità TPU All Capacity, le VM TPU non vengono migrate a un altro host durante la riparazione. Verranno invece riavviate sullo stesso host se la capacità è sufficiente.