Cette page explique comment résoudre les causes courantes de jobs Dataflow par lot lents ou bloqués.
Si votre job par lot est lent ou bloqué, utilisez l' onglet Détails de l'exécution pour accéder à davantage d' informations sur le job et identifier l'étape ou le nœud de calcul à l'origine du goulot d'étranglement.
Identifier la cause principale
Vérifiez si le job rencontre des problèmes lors du démarrage du nœud de calcul. Pour en savoir plus, consultez Erreur lors de la synchronisation du pod.
Pour vérifier que le job a commencé à traiter les données, recherchez l'entrée de journal suivante dans le journal des messages du job :
All workers have finished the startup processes and began to receive work requestsPour comparer les performances de différents jobs, assurez-vous que le volume de données d'entrée, la configuration des nœuds de calcul, le comportement d'autoscaling et les paramètres de Dataflow Shuffle sont identiques.
Consultez les journaux des messages du job-message pour détecter des problèmes tels que des limites de quota, des problèmes de rupture de stock ou une épuisement des adresses IP.
Dans l'onglet Détails de l'exécution, comparez la progression des étapes pour identifier celles qui ont pris plus de temps.
Recherchez les retardataires dans le job. Pour en savoir plus, consultez Résoudre les problèmes liés aux retardataires dans les jobs par lot.
Vérifiez les métriques de débit, d'utilisation du processeur et de la mémoire.
Recherchez les avertissements et les erreurs dans les journaux des nœuds de calcul.
- Si les journaux des nœuds de calcul contiennent des erreurs, affichez la trace de la pile. Déterminez si l'erreur est due à un bug dans votre code.
- Recherchez les erreurs Dataflow. Consultez la page Résoudre les erreurs Dataflow.
- Recherchez les erreurs de mémoire insuffisante, qui peuvent entraîner le blocage d'un pipeline. Si vous constatez des erreurs de mémoire insuffisante, suivez les étapes décrites dans Résoudre les erreurs Dataflow de mémoire insuffisante.
- Pour identifier une étape lente ou bloquée, recherchez les messages
Operation ongoingdans les journaux des nœuds de calcul. Affichez la trace de la pile pour voir où l'étape passe du temps. Pour en savoir plus, consultez Traitement bloqué ou opération en cours.
Si vous n'utilisez pas Dataflow Shuffle, recherchez les avertissements et les erreurs dans les journaux du shuffler lors de l'opération de shuffle. Si vous voyez une erreur de délai d'attente RPC sur le port 12345 ou 12346, il est possible qu'il manque une règle de pare-feu à votre job. Consultez la section Règles de pare-feu pour Dataflow.
Si Runner v2 est activé, recherchez les erreurs dans les journaux du harnais. Pour en savoir plus, consultez Résoudre les problèmes liés à Runner v2.
Identifier les retardataires
Un retardataire est un élément de travail lent par rapport aux autres éléments de travail de l'étape. Pour en savoir plus sur l'identification et la correction des retardataires, consultez la page Résoudre les problèmes de retardataires dans les jobs par lot.
Identifier les étapes lentes ou bloquées
Pour identifier les étapes lentes ou bloquées, utilisez la vue Progression des étapes. Les barres plus longues indiquent que l'étape prend plus de temps. Utilisez cette vue pour identifier les étapes les plus lentes de votre pipeline.
Une fois que vous avez trouvé l'étape goulot d'étranglement, vous pouvez effectuer les étapes suivantes :
- Identifiez le nœud de calcul retardataire dans cette étape.
- S'il n'y a pas de nœuds de calcul retardataires, identifiez l'étape la plus lente à l'aide du panneau Informations sur l'étape. Utilisez ces informations pour identifier les candidats à l'optimisation du code utilisateur.
Identifier un nœud de calcul lent
Pour identifier un nœud de calcul lent pour une étape spécifique, utilisez la vue Progression du nœud de calcul. Cette vue indique si tous les nœuds de calcul traitent le travail jusqu'à la fin de l'étape ou si un seul nœud de calcul est bloqué sur une tâche retardataire. Si vous trouvez un nœud de calcul retardataire, procédez comme suit :
- Affichez les fichiers journaux de ce nœud de calcul. Pour en savoir plus, consultez la page Surveiller et afficher les journaux de pipeline.
- Affichez les métriques d'utilisation du processeur et la progression du nœud de calcul pour les nœuds de calcul retardataires. Si vous constatez une utilisation du processeur inhabituellement faible ou élevée, recherchez les problèmes suivants dans les fichiers journaux de ce nœud de calcul :
Outils de débogage
Lorsque votre pipeline est lent ou bloqué, les outils suivants peuvent vous aider à diagnostiquer le problème.
- Pour mettre en corrélation des incidents et identifier les goulots d'étranglement, utilisez Cloud Monitoring pour Dataflow.
- Pour surveiller les performances du pipeline, utilisez Cloud Profiler.
- Certaines transformations sont mieux adaptées que d'autres aux pipelines traitant de gros volumes. Les messages de journal peuvent identifier une transformation utilisateur bloquée dans des pipelines de traitement par lot ou par flux.
- Pour en savoir plus sur un job bloqué, utilisez les métriques de job Dataflow.
Pour obtenir des métriques supplémentaires qui ne sont pas incluses dans l'interface Web de surveillance Dataflow, consultez la liste complète des métriques Dataflow dans Google Cloud Métriques.