Ce document explique comment résoudre les problèmes de lenteur des performances que vous avez identifiés pour les charges de travail exécutées sur des VM ou des clusters optimisés pour l'IA.
Pour savoir comment identifier les performances lentes, consultez Surveiller les instances Compute Engine et les clusters Slurm.
Identifiez et corrigez les éventuels retardataires pour votre charge de travail : Procédez comme suit :
Vérifiez si vous pouvez utiliser la détection des tâches lentes pour votre charge de travail. Pour consulter les limites et les exigences liées à l'utilisation de la détection des retardataires, consultez Surveiller les instances Compute Engine et les clusters Slurm.
Si vous ne pouvez pas utiliser la détection des retardataires, essayez d'autres options pour résoudre les problèmes de performances lentes.
Pour vérifier si des VM de votre charge de travail sont susceptibles d'être des retardataires, consultez les métriques de détection des retardataires.
Par exemple, pour visualiser tous les retardataires suspects de votre projet dans Cloud Monitoring, procédez comme suit :
-
Dans la console Google Cloud , accédez à la page Tableaux de bord :
Accéder à la page Tableaux de bord
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Dans la section Type du volet des filtres, cliquez sur Services Google.
Dans la colonne Nom, cliquez sur Surveillance de l'état de Cluster Director.
La page d'informations du tableau de bord s'ouvre.
Utilisez le sélecteur de période dans la barre d'outils pour sélectionner la période de performances lentes. La détection des retardataires prend généralement jusqu'à 10 minutes.
Pour vérifier si des VM de votre charge de travail sont suspectées d'être des retardataires, consultez la section Détection des retardataires. Utilisez cette requête pour vérifier si le tableau Instances suspectées d'être à la traîne liste des VM pour votre charge de travail.
-
En fonction du nombre de VM de votre charge de travail qui sont susceptibles d'être des retardataires, procédez comme suit :
Si aucune VM n'est suspectée d'être à la traîne, vérifiez si la détection des VM à la traîne fonctionne correctement. Pour vérifier si le service de détection des éléments isolés est en cours d'exécution pour votre projet, suivez les instructions pour afficher les journaux de détection des éléments isolés et spécifiez la requête pour tous les journaux de détection des éléments isolés de votre projet. Ensuite, procédez comme suit :
Si votre projet ne comporte pas de journaux de détection des retardataires alors que les VM sont en cours d'exécution depuis au moins 10 minutes, cela signifie que le service de détection des retardataires n'est pas en cours d'exécution pour votre projet. Pour résoudre ce problème, contactez Cloud Customer Care ou réessayez plus tard.
Sinon, si vous avez vérifié que la détection des tâches retardataires est en cours pour votre projet et que votre charge de travail la prend en charge, les performances lentes peuvent être dues à un autre problème. Utilisez d'autres options pour résoudre les problèmes de performances lentes.
Si un petit nombre de VM de votre charge de travail sont signalées comme étant potentiellement lentes, testez la migration de votre charge de travail hors des VM suspectes. Ensuite, procédez comme suit :
Si la migration restaure les performances de votre charge de travail, les VM suspectes peuvent être défectueuses. Pour chacune de ces VM, suivez la procédure pour signaler un hôte défectueux, définissez
FAULT_REASONsurPERFORMANCEetDESCRIPTIONsurstraggler node.Si la migration ne restaure pas les performances, il peut y avoir d'autres VM lentes suspectées ou les performances lentes peuvent être dues à un autre problème. Vous pouvez vérifier si d'autres VM de votre charge de travail sont suspectées d'être des retardataires ou utiliser d'autres options pour résoudre les problèmes de performances lentes.
Si un grand nombre de VM de votre charge de travail sont signalées comme des retardataires potentiels, utilisez d'autres options pour résoudre les problèmes de performances lentes.
Utilisez d'autres options pour résoudre les problèmes de performances lentes : si la liste des VM lentes suspectées est longue ou si la suppression des VM lentes signalées ne rétablit pas les performances, utilisez d'autres options pour résoudre les problèmes de performances lentes, par exemple :
- Tester les clusters à l'aide du scanner d'état des clusters
- Examiner d'autres métriques de performances
- Consultez d'autres documents de dépannage. Par exemple, consultez Résoudre les problèmes liés aux VM GPU dans la documentation Compute Engine.