Detectar possíveis falhas usando a observabilidade

Last reviewed 2024-12-30 UTC

Este princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a identificar proativamente áreas em que erros e falhas podem ocorrer.

Esse princípio é relevante para a área de foco de observação da confiabilidade.

Visão geral do princípio

Para manter e melhorar a confiabilidade das cargas de trabalho no Google Cloud, é necessário implementar uma observabilidade eficaz usando métricas, registros e rastreamentos.

  • As métricas são medidas numéricas de atividades que você quer acompanhar no aplicativo em intervalos de tempo específicos. Por exemplo, talvez você queira acompanhar métricas técnicas, como taxa de solicitações e taxa de erros, que podem ser usadas como indicadores de nível de serviço (SLIs). Talvez também seja necessário acompanhar métricas de negócios específicas do aplicativo, como pedidos feitos e pagamentos recebidos.
  • Os registros são registros com carimbo de data/hora de eventos discretos que ocorrem em um aplicativo ou sistema. O evento pode ser uma falha, um erro ou uma mudança de estado. Os registros podem incluir métricas, e você também pode usá-los para SLIs.
  • Um rastreamento representa a jornada de um único usuário ou transação por vários aplicativos separados ou pelos componentes de um aplicativo. Por exemplo, esses componentes podem ser microsserviços. Os rastreamentos ajudam a acompanhar quais componentes foram usados nas jornadas, onde existem gargalos e quanto tempo as jornadas levaram.

Métricas, registros e rastreamentos ajudam a monitorar seu sistema continuamente. O monitoramento abrangente ajuda a descobrir onde e por que os erros ocorreram. Você também pode detectar possíveis falhas antes que os erros ocorram.

Recomendações

Para detectar possíveis falhas com eficiência, considere as recomendações nas subseções a seguir.

Receber insights abrangentes

Para acompanhar métricas importantes, como tempos de resposta e taxas de erros, use o Cloud Monitoring e o Cloud Logging. Essas ferramentas também ajudam a garantir que as métricas atendam consistentemente às necessidades da carga de trabalho.

Para tomar decisões orientadas por dados, analise as métricas de serviço padrão para entender as dependências de componentes e o impacto delas no desempenho geral da carga de trabalho.

Para personalizar sua estratégia de monitoramento, crie e publique suas próprias métricas usando o SDK Google Cloud.

Realizar a solução de problemas proativa

Implemente um tratamento de erros robusto e ative a geração de registros em todos os componentes das cargas de trabalho no Google Cloud. Ative registros como os de acesso ao Cloud Storage e os de fluxo da VPC.

Ao configurar a geração de registros, considere os custos associados custos. Para controlar os custos de geração de registros, configure filtros de exclusão nos coletores de registros para excluir determinados registros do armazenamento.

Otimizar a utilização de recursos

Monitore o consumo de CPU, as métricas de E/S de rede e as métricas de E/S de disco para detectar recursos subprovisionados e superprovisionados em serviços como GKE, Compute Engine e Serviço Gerenciado para Apache Spark. Para uma lista completa de serviços compatíveis, consulte a Visão geral do Cloud Monitoring.

Priorizar alertas

Para alertas, concentre-se em métricas críticas, defina limites adequados para minimizar a sobrecarga de alertas e garanta respostas rápidas a problemas significativos. Essa abordagem direcionada permite manter a confiabilidade da carga de trabalho de maneira proativa. Para mais informações, consulte Visão geral sobre alertas.