Risolvere i problemi di rallentamento delle prestazioni

Questo documento spiega come risolvere i problemi di prestazioni lente che hai identificato per i carichi di lavoro eseguiti su VM o cluster ottimizzati per l'AI.

Per scoprire come identificare le prestazioni lente, consulta Monitorare le istanze Compute Engine e i cluster Slurm.

  1. Identifica e risolvi eventuali ritardatari sospetti per il tuo workload: Completa i seguenti passaggi:

    1. Controlla se puoi utilizzare il rilevamento dei ritardatari per il tuo workload. Per esaminare le limitazioni e i requisiti per l'utilizzo del rilevamento di attività in ritardo, consulta Monitorare le istanze di Compute Engine e i cluster Slurm.

      Se non riesci a utilizzare il rilevamento dei ritardatari, utilizza altre opzioni per risolvere i problemi di prestazioni lente.

    2. Per verificare se alcune VM per il tuo workload sono sospettate di essere straggler, visualizza le metriche di rilevamento degli straggler.

      Ad esempio, per visualizzare tutti i ritardatari sospetti per il tuo progetto in Cloud Monitoring, completa i seguenti passaggi:

      1. Nella console Google Cloud , vai alla pagina  Dashboard:

        Vai a Dashboard

        Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

      2. Nella sezione Tipo del riquadro dei filtri, fai clic su Servizi Google.

      3. Nella colonna Nome, fai clic su Monitoraggio dell'integrità di Cluster Director.

        Viene visualizzata la pagina dei dettagli della dashboard.

      4. Utilizza il selettore dell'intervallo di tempo nella barra degli strumenti per selezionare l'intervallo di tempo del rendimento lento. Il rilevamento dei ritardatari in genere richiede fino a 10 minuti per segnalare un ritardatario.

      5. Per verificare se alcune VM per il tuo workload sono sospette ritardatarie, controlla la sezione Rilevamento ritardatari. Utilizza questa query per verificare se la tabella Istanze straggler sospette elenca VM per il tuo workload.

    3. In base al numero di VM per il tuo workload che sono sospettate di essere in ritardo, procedi nel seguente modo:

  2. Utilizza altre opzioni per risolvere i problemi di prestazioni lente: se l'elenco segnalato di VM lente sospette è lungo o se la rimozione delle VM lente sospette segnalate non ripristina le prestazioni, utilizza altre opzioni per risolvere i problemi di prestazioni lente, ad esempio: