Monitorize o estado de saúde

Esta página descreve como aceder aos painéis de controlo do estado de funcionamento para monitorizar e identificar potenciais problemas.

O estado de saúde ajuda a visualizar as métricas essenciais da infraestrutura de dispositivos isolados do Google Distributed Cloud (GDC) e oferece uma vista geral de alto nível do estado de saúde dos componentes. A visualização dos painéis de controlo do estado de funcionamento ajuda a identificar as causas principais, diagnosticar comportamentos e obter contexto adicional durante a investigação para resolver problemas.

O GDC monitoriza e fornece o estado de funcionamento de cada componente de hardware e software, incluindo:

  • Hardware: nó do servidor
  • Software: clusters, VMs e armazenamento

Os painéis de controlo do estado de funcionamento permitem-lhe visualizar as métricas com as quais cada componente mede o estado de monitorização.

Antes de começar

Os clusters raiz contêm uma instância do Grafana para operadores de infraestrutura. Estas instâncias do Grafana contêm os painéis de controlo do estado de saúde.

Precisa de controlos de acesso baseados em funções para aceder às visualizações de dados em segurança nos painéis de controlo da instância do Grafana. Por este motivo, siga as instruções da secção Antes de começar para consultar e ver métricas nos painéis de controlo para aceder aos painéis de controlo nas instâncias do Grafana.

Ponto final do Grafana

Abra um dos seguintes URLs para aceder ao ponto final do Grafana do projeto infra-obs ou do cluster de administrador raiz:

  • Ponto final do Grafana do projeto infra-obs:

    https://GDC_URL/infra-obs/grafana
    

    Substitua GDC_URL pelo URL de uma organização no GDC.

  • Ponto final do Grafana do cluster de administrador principal:

    https://ROOT_ADMIN_CLUSTER_URL/grafana
    

    Substitua ROOT_ADMIN_CLUSTER_URL pelo URL do cluster de administrador principal no GDC.

Exemplos de utilização

Esta secção inclui exemplos de como pode usar o painel de controlo para casos práticos.

Ajuste do desempenho

Se um componente tiver um desempenho fraco, mas não estiver necessariamente a afetar o SLO nem a acionar alertas, pode comunicar proativamente aos programadores e evitar que ocorram problemas futuros.

Da mesma forma, um componente pode querer saber como funciona a sua funcionalidade para fazer as compensações de desempenho certas. O estado de saúde é um mecanismo para recolher as informações de que os componentes precisam.

Desenvolvimento de funcionalidades

Suponhamos que um cliente pede alterações ou que o GDC planeia lançar uma nova funcionalidade. Nesse caso, pode observar o estado de saúde dos componentes relevantes para determinar a viabilidade do suporte da nova funcionalidade ou alteração. Além disso, o estado de saúde pode ser usado para tomar decisões sobre o produto ao priorizar o trabalho.

Por exemplo, suponhamos que um componente tem uma latência média de 500 ms e tem interesse em reduzi-la para 250 ms. Nesse caso, a equipa pode calcular o custo relativo de uma redução incremental de 50% e compará-lo com a conceção de um ponto final com um tempo de resposta de 250 ms.