Questo documento spiega come risolvere i problemi di prestazioni lente che hai identificato per i carichi di lavoro eseguiti su VM o cluster ottimizzati per l'AI.
Per scoprire come identificare le prestazioni lente, consulta Monitorare le istanze Compute Engine e i cluster Slurm.
Identifica e risolvi eventuali ritardatari sospetti per il tuo workload: Completa i seguenti passaggi:
Controlla se puoi utilizzare il rilevamento dei ritardatari per il tuo workload. Per esaminare le limitazioni e i requisiti per l'utilizzo del rilevamento di attività in ritardo, consulta Monitorare le istanze di Compute Engine e i cluster Slurm.
Se non riesci a utilizzare il rilevamento dei ritardatari, utilizza altre opzioni per risolvere i problemi di prestazioni lente.
Per verificare se alcune VM per il tuo workload sono sospettate di essere straggler, visualizza le metriche di rilevamento degli straggler.
Ad esempio, per visualizzare tutti i ritardatari sospetti per il tuo progetto in Cloud Monitoring, completa i seguenti passaggi:
-
Nella console Google Cloud , vai alla pagina Dashboard:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Nella sezione Tipo del riquadro dei filtri, fai clic su Servizi Google.
Nella colonna Nome, fai clic su Monitoraggio dell'integrità di Cluster Director.
Viene visualizzata la pagina dei dettagli della dashboard.
Utilizza il selettore dell'intervallo di tempo nella barra degli strumenti per selezionare l'intervallo di tempo del rendimento lento. Il rilevamento dei ritardatari in genere richiede fino a 10 minuti per segnalare un ritardatario.
Per verificare se alcune VM per il tuo workload sono sospette ritardatarie, controlla la sezione Rilevamento ritardatari. Utilizza questa query per verificare se la tabella Istanze straggler sospette elenca VM per il tuo workload.
-
In base al numero di VM per il tuo workload che sono sospettate di essere in ritardo, procedi nel seguente modo:
Se nessuna VM è sospettata di essere in ritardo, verifica se il rilevamento delle VM in ritardo è in esecuzione correttamente. Per verificare se il servizio di rilevamento dei ritardatari è in esecuzione per il tuo progetto, segui le istruzioni per visualizzare i log di rilevamento dei ritardatari e specifica la query per tutti i log di rilevamento dei ritardatari nel tuo progetto. Poi procedi nel seguente modo:
Se il tuo progetto non ha log di rilevamento dei ritardatari mentre le VM sono in esecuzione da almeno 10 minuti, il servizio di rilevamento dei ritardatari non è in esecuzione per il tuo progetto. Per risolvere il problema, contatta l'assistenza clienti Google Cloud o riprova più tardi.
In caso contrario, se hai verificato che il rilevamento dei ritardatari è in esecuzione per il tuo progetto e il tuo carico di lavoro lo supporta, il rallentamento delle prestazioni potrebbe essere causato da un problema diverso. Utilizza altre opzioni per risolvere i problemi di prestazioni lente.
Se viene segnalato un numero ridotto di VM nel tuo workload come presunti ritardatari, prova a eseguire la migrazione del workload dalle VM sospette. Poi procedi nel seguente modo:
Se la migrazione ripristina le prestazioni del workload, le VM sospette potrebbero essere difettose. Per ciascuna di queste VM, segui i passaggi per segnalare un host difettoso, imposta
FAULT_REASONsuPERFORMANCEe impostaDESCRIPTIONsustraggler node.Se la migrazione non ripristina le prestazioni, potrebbero esserci altre VM sospette o le prestazioni lente potrebbero essere causate da un problema diverso. Puoi controllare se altre VM per il tuo workload sono sospettate di essere in ritardo o utilizzare altre opzioni per la risoluzione dei problemi di prestazioni lente.
Se viene segnalato un numero elevato di VM nel tuo workload come potenziali ritardatari, allora utilizza altre opzioni per la risoluzione dei problemi di prestazioni lente.
Utilizza altre opzioni per risolvere i problemi di prestazioni lente: se l'elenco segnalato di VM lente sospette è lungo o se la rimozione delle VM lente sospette segnalate non ripristina le prestazioni, utilizza altre opzioni per risolvere i problemi di prestazioni lente, ad esempio:
- Testa i cluster utilizzando lo scanner di integrità dei cluster.
- Esamina altre metriche sul rendimento.
- Consulta altra documentazione per la risoluzione dei problemi. Ad esempio, consulta Risoluzione dei problemi relativi alle VM GPU nella documentazione di Compute Engine.