Détecter les défaillances potentielles à l'aide de l'observabilité

Last reviewed 2024-12-30 UTC

Ce principe du pilier "Fiabilité" du Google Cloud framework d'architecture fournit des recommandations pour vous aider à identifier de manière proactive les zones où des erreurs et des défaillances peuvent se produire.

Ce principe concerne le domaine d'intérêt observation focus area de la fiabilité.

Présentation du principe

Pour maintenir et améliorer la fiabilité de vos charges de travail dans Google Cloud, vous devez mettre en œuvre une observabilité efficace à l'aide de métriques, de journaux et de traces.

  • Les métriques sont des mesures numériques des activités que vous souhaitez suivre pour votre application à des intervalles spécifiques. Par exemple, vous pouvez suivre des métriques techniques telles que le taux de requêtes et le taux d'erreur, qui peuvent être utilisées comme indicateurs de niveau de service (SLI). Vous devrez peut-être également suivre des métriques commerciales spécifiques à l'application, telles que les commandes passées et les paiements reçus.
  • Les journaux sont des enregistrements horodatés d'événements discrets qui se produisent dans une application ou un système. L'événement peut être une défaillance, une erreur ou un changement d'état. Les journaux peuvent inclure des métriques, et vous pouvez également les utiliser pour les SLI.
  • Une trace représente le parcours d'un seul utilisateur ou d'une seule transaction dans plusieurs applications distinctes ou dans les composants d'une application. Par exemple, ces composants peuvent être des microservices. Les traces vous aident à suivre les composants utilisés dans les parcours, les goulots d'étranglement et la durée des parcours.

Les métriques, les journaux et les traces vous aident à surveiller votre système en continu. Une surveillance complète vous permet de déterminer où et pourquoi des erreurs se sont produites. Vous pouvez également détecter les défaillances potentielles avant qu'elles ne se produisent.

Recommandations

Pour détecter efficacement les défaillances potentielles, tenez compte des recommandations des sous-sections suivantes.

Obtenir des insights complets

Pour suivre les métriques clés telles que les temps de réponse et les taux d'erreur, utilisez Cloud Monitoring et Cloud Logging. Ces outils vous aident également à vous assurer que les métriques répondent systématiquement aux besoins de votre charge de travail.

Pour prendre des décisions basées sur les données, analysez les métriques de service par défaut afin de comprendre les dépendances des composants et leur impact sur les performances globales de la charge de travail.

Pour personnaliser votre stratégie de surveillance, créez et publiez vos propres métriques à l'aide de Google Cloud SDK.

Effectuer un dépannage proactif

Mettez en œuvre une gestion robuste des erreurs et activez la journalisation dans tous les composants de vos charges de travail dans Google Cloud. Activez les journaux tels que les journaux d'accès Cloud Storage et les journaux de flux VPC.

Lorsque vous configurez la journalisation, tenez compte des coûts associés coûts. Pour contrôler les coûts de journalisation, vous pouvez configurer des filtres d'exclusion sur les récepteurs de journaux afin d'empêcher le stockage de certains journaux.

Optimiser l'utilisation des ressources

Surveillez la consommation de processeur, les métriques d'E/S réseau et les métriques d'E/S disque pour détecter les ressources sous-provisionnées et sur-provisionnées dans des services tels que GKE, Compute Engine et Managed Service pour Apache Spark. Pour obtenir la liste complète des services compatibles, consultez la présentation de Cloud Monitoring.

Prioriser les alertes

Pour les alertes, concentrez-vous sur les métriques critiques, définissez des seuils appropriés pour minimiser la fatigue liée aux alertes et assurez-vous de répondre rapidement aux problèmes importants. Cette approche ciblée vous permet de maintenir de manière proactive la fiabilité des charges de travail. Pour en savoir plus, consultez la présentation des alertes.