Incidentes para políticas de alertas com base em métricas

Um incidente é um registro de quando a condição ou as condições de uma política de alertas são atendidas. Se uma política de alertas tiver várias condições, ela vai especificar se atender a uma condição é suficiente para criar um incidente. Normalmente, quando as condições são atendidas, o Cloud Monitoring abre um incidente e envia uma notificação. No entanto, os incidentes não são criados nas seguintes circunstâncias:

  • A política está adiada ou desativada.
  • O número de políticas de alertas ou incidentes excede os limites de alertas.

Para cada incidente, o Monitoring cria uma página de Detalhes do incidente que permite gerenciar o incidente e informa dados que podem ajudar a resolver a falha. Por exemplo, a página Detalhes do incidente mostra a linha do tempo do incidente e um gráfico com os dados da métrica monitorada. Você também pode encontrar links para incidentes relacionados e entradas de registro.

Este documento descreve como encontrar seus incidentes. Ela também descreve como usar a página Detalhes do incidente para gerenciar incidentes de políticas de alertas com base em métricas, que avaliam dados de série temporal armazenados pelo Cloud Monitoring.

Esse recurso só é compatível com projetos Google Cloud . Para configurações do App Hub, selecione o projeto host ou de gerenciamento do App Hub.

Antes de começar

Para receber as permissões necessárias para visualizar e gerenciar incidentes, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.

Visualizar incidentes

Para ver os incidentes no seu projeto, use o console do Google Cloud , a CLI gcloud (prévia pública) ou a API Monitoring (prévia pública).

Console do Google Cloud

Para listar os incidentes no seu projeto Google Cloud , faça o seguinte:

  1. No console do Google Cloud , acesse a página  Alertas:

    Acessar Alertas

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Na barra de ferramentas do console Google Cloud , selecione seu projeto Google Cloud . Para configurações do App Hub, selecione o projeto host ou de gerenciamento do App Hub.

    A página Alertas mostra informações sobre suas políticas de alertas, adiamentos e incidentes:

    • O painel Resumo lista o número de incidentes abertos.
    • A tabela Incidentes mostra os incidentes abertos mais recentes. Para listar os incidentes mais recentes na tabela, incluindo aqueles que foram fechados, clique em Mostrar incidentes fechados.
  3. Para conferir os detalhes de um incidente específico, selecione-o na lista.

    A página Detalhes do incidente é aberta. Para mais informações sobre a página Detalhes do incidente, consulte a seção Investigar um incidente deste documento.

Encontrar incidentes mais antigos

A tabela Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para ver incidentes mais antigos, faça o seguinte:

  • Para percorrer as entradas na tabela Incidentes, clique em  Mais recentes ou em  Mais antigos.

  • Para abrir uma página que permite listar e filtrar seus incidentes, clique em Ver todos os incidentes. A página Incidentes é aberta. Nessa página, faça o seguinte:

    • Mostrar todos os incidentes, incluindo os encerrados. Para mostrar todos os incidentes, clique em Mostrar incidentes fechados.
    • Filtre incidentes. Para mais informações sobre como adicionar filtros, consulte Filtrar incidentes.
    • Confirme ou feche um incidente ou adie a política de alertas dele. Para acessar essas opções, clique em  Mais opções na linha do incidente e faça uma seleção no menu. Para mais informações, consulte Gerenciar incidentes.

Filtrar incidentes

Para restringir os incidentes mostrados na tabela, adicione filtros. Se você adicionar vários filtros, a tabela vai mostrar apenas os incidentes que atendem a todos eles.

Para filtrar a tabela de incidentes, faça o seguinte:

  1. Na página Incidentes, clique em  Filtrar tabela e selecione uma propriedade de filtro. As propriedades do filtro incluem:

    • Estado do incidente
    • Nome da política de alertas
    • quando o incidente foi aberto ou fechado;
    • Tipo de métrica
    • Tipo de recurso
  2. Selecione um valor no menu secundário ou digite um valor na barra de filtro.

    Por exemplo, se você selecionar Tipo de métrica e inserir usage_time, poderá ver apenas as seguintes opções no menu secundário:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

    A tabela Incidentes lista o filtro.

gcloud

Use a gcloud para receber e listar incidentes.

Receber incidente

Antes de usar os dados do comando abaixo, faça estas substituições:

  • ALERT_NAME: o nome do recurso do alerta. Por exemplo, projects/my-project/alerts/my-alert-id.

Execute o comando gcloud alpha monitoring alerts describe:

Linux, macOS ou Cloud Shell

gcloud alpha monitoring alerts describe ALERT_NAME

Windows (PowerShell)

gcloud alpha monitoring alerts describe ALERT_NAME

Windows (cmd.exe)

gcloud alpha monitoring alerts describe ALERT_NAME
O comando retorna uma resposta com detalhes do alerta, como estado do alerta, rótulos anexados e a política de alertas de origem. Os rótulos na resposta estão sujeitos a mudanças enquanto esse recurso estiver em pré-lançamento. A resposta será semelhante a esta:
{
  "name": "projects/my-project/alerts/my-alert-id1",
  "state": "OPEN",
  "open_time": "2025-06-11T09:53:46Z",
  "close_time": "2025-06-13T10:11:36Z",
  "resource": {
    "type": "gce_instance",
    "labels": {
      "zone": "us-west1",
      "instance_id": "123456789",
      "project_id": "my-project"
    }
  },
  "metric": {
    "labels": {
      "instance_name": "my-instance1"
    },
    "type": "compute.googleapis.com/instance/cpu/usage_time"
  },
  "policy": {
    "name": "projects/my-project/alertPolicies/POLICY_1",
    "displayName": "my-policy"
  },
  "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
}

Listar incidentes

É possível listar incidentes no seu projeto e filtrar os resultados usando a CLI gcloud.

Antes de usar os dados do comando abaixo, faça estas substituições:

  • PROJECT_ID: o identificador do projeto.

Execute o comando gcloud alpha monitoring alerts list:

Linux, macOS ou Cloud Shell

gcloud alpha monitoring alerts list

Windows (PowerShell)

gcloud alpha monitoring alerts list

Windows (cmd.exe)

gcloud alpha monitoring alerts list
O comando retorna uma resposta com detalhes do alerta, como estado do alerta, rótulos anexados e a política de alertas de origem. Os rótulos na resposta estão sujeitos a mudanças enquanto esse recurso estiver em pré-lançamento. A resposta será semelhante a esta:
{
  "alerts": [
    {
      "name": "projects/my-project/alerts/my-alert-id1",
      "state": "OPEN",
      "open_time": "2025-06-11T09:53:46Z",
      "close_time": "2025-06-13T10:11:36Z",
      "resource": {
        "type": "gce_instance",
        "labels": {
          "zone": "us-west1",
          "instance_id": "123456789",
          "project_id": "my-project"
        }
      },
      "metric": {
        "labels": {
          "instance_name": "my-instance1"
        },
        "type": "compute.googleapis.com/instance/cpu/usage_time"
      },
      "policy": {
        "name": "projects/my-project/alertPolicies/POLICY_1",
        "displayName": "my-policy"
      },
      "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
    }
  ]
}
Também é possível usar as seguintes flags opcionais para filtrar, classificar ou modificar a saída:
  • --filter: forneça uma expressão de filtro para filtrar alertas por tempo ou rótulo. Por exemplo, filtre por tempo com --filter='close_time>="2025-09-10T00:00:00Z"' ou por rótulo com --filter='resource.labels.key="value"'.

  • --sort-by: uma lista separada por vírgulas de campos para classificar a saída. Por exemplo, --sort-by=open_time.

  • --uri: o comando gera uma lista de URIs de recursos em vez da saída padrão.

  • --limit: defina essa flag como 2 ou um valor maior para limitar o número de alertas retornados. Não use essa flag com a flag --filter.

API Monitoring

Use a API Monitoring para receber e listar incidentes.

Receber incidente

Para receber detalhes sobre um único incidente com a API Monitoring, use o método alerts.get.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o identificador do projeto.
  • ALERT_ID: o ID do alerta.

Método HTTP e URL:

GET https://monitoring.googleapis.com/v3/projects/PROJECT_ID/alerts/ALERT_ID

Para enviar a solicitação, expanda uma destas opções:

O comando retorna uma resposta com detalhes do alerta, como estado do alerta, rótulos anexados e a política de alertas de origem. Os rótulos na resposta estão sujeitos a mudanças enquanto esse recurso estiver em pré-lançamento. A resposta será semelhante a esta:
{
  "name": "projects/my-project/alerts/my-alert-id1",
  "state": "OPEN",
  "open_time": "2025-06-11T09:53:46Z",
  "close_time": "2025-06-13T10:11:36Z",
  "resource": {
    "type": "gce_instance",
    "labels": {
      "zone": "us-west1",
      "instance_id": "123456789",
      "project_id": "my-project"
    }
  },
  "metric": {
    "labels": {
      "instance_name": "my-instance1"
    },
    "type": "compute.googleapis.com/instance/cpu/usage_time"
  },
  "policy": {
    "name": "projects/my-project/alertPolicies/POLICY_1",
    "displayName": "my-policy"
  },
  "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
}

Listar incidentes

Para listar incidentes no seu projeto e filtrar os resultados com a API Monitoring, use o método alerts.list.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o identificador do projeto.

Método HTTP e URL:

GET https://monitoring.googleapis.com/v3/projects/PROJECT_ID/alerts

Para enviar a solicitação, expanda uma destas opções:

O comando retorna uma resposta com detalhes do alerta, como estado do alerta, rótulos anexados e a política de alertas de origem. Os rótulos na resposta estão sujeitos a mudanças enquanto esse recurso estiver em pré-lançamento. A resposta será semelhante a esta:
{
  "alerts": [
    {
      "name": "projects/my-project/alerts/my-alert-id1",
      "state": "OPEN",
      "open_time": "2025-06-11T09:53:46Z",
      "close_time": "2025-06-13T10:11:36Z",
      "resource": {
        "type": "gce_instance",
        "labels": {
          "zone": "us-west1",
          "instance_id": "123456789",
          "project_id": "my-project"
        }
      },
      "metric": {
        "labels": {
          "instance_name": "my-instance1"
        },
        "type": "compute.googleapis.com/instance/cpu/usage_time"
      },
      "policy": {
        "name": "projects/my-project/alertPolicies/POLICY_1",
        "displayName": "my-policy"
      },
      "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
    }
  ]
}
Os usuários do Curl podem adicionar a flag --data-urlencode seguida de uma expressão de filtro para filtrar alertas por tempo ou rótulo. Veja os exemplos a seguir:

Listar alertas abertos na última hora:

--data-urlencode "filter=(open_time>=\"`date -u -d "1 hour ago" +"%Y-%m-%dT%H:%M:%SZ"`\")"

Listar e filtrar alertas abertos no último dia:

--data-urlencode "filter=(open_time>=\"`date -u -d "1 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\" AND state=open)"

Listar e filtrar alertas abertos entre dois períodos:

--data-urlencode "filter=(open_time>=\"`date -u -d "2 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\" AND open_time<=\"`date -u -d "1 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\")"

Liste e filtre alertas por rótulo do usuário. Neste exemplo, filtre por um rótulo do usuário com o nome app e o valor my-gke-app:

--data-urlencode "filter=(policy.user_labels.app=\"my-gke-app\")"
Os usuários do PowerShell podem usar o exemplo a seguir para adicionar um filtro com base no tempo ao URL da solicitação:
$baseUrl = "https://monitoring.googleapis.com/v3/projects/my-project/alerts"
$filterValue = (Get-Date).AddHours(-1).ToString("yyyy-MM-ddTHH:mm:ssZ")
$filter = 'open_time >= "' + $filterValue + '"'
$encodedFilter = [System.Uri]::EscapeDataString($filter)
$url = $baseUrl + "?filter=" + $encodedFilter

Investigar um incidente

A página Detalhes do incidente contém informações que podem ajudar você a identificar a causa de um incidente.

Acessar dados de métricas

Para analisar o estado da métrica antes e depois da ocorrência do incidente, use o gráfico Métricas de alerta. Esse gráfico mostra uma linha do tempo e a série temporal que fez com que a condição da política de alertas fosse atendida.

Ajuste o intervalo da linha do tempo para procurar tendências e padrões nos dados de métricas relativos ao incidente:

  • Para alternar entre mostrar apenas as série temporal que causaram a condição e mostrar todas as série temporal que a condição avalia, clique em Mostrar todas as séries temporais.

  • Para mudar o período mostrado no gráfico, use o seletor de período na barra de ferramentas ou destaque os períodos no gráfico com o ponteiro.

Você também pode analisar os dados de métricas com mais detalhes no Metrics Explorer. Para fazer isso, acesse o gráfico Métricas de alerta e clique em Explorar dados. Por padrão, o Metrics Explorer agrega e filtra dados de métricas para que o gráfico de métricas se alinhe à série temporal mostrada na linha do tempo Métricas de alerta.

Analisar entradas de registro

O painel Registros na página Detalhes do incidente mostra entradas de registro que correspondem ao tipo de recurso e aos rótulos do recurso monitorado para sua métrica. Você pode analisar essas entradas de registro para encontrar mais informações que ajudem a resolver o incidente.

  • Para ver as entradas de registro no Explorador de registros, clique em Ver no Explorador de registros e selecione um projeto de escopo. A Análise de registros oferece outras ferramentas para analisar dados de entrada de registro, como uma linha do tempo de quando as entradas de registro relacionadas foram criadas.
  • Para ver e editar a consulta usada para filtrar as entradas de registro no Metrics Explorer, clique em Analisar dados.

Ver informações do aplicativo

Para políticas de alerta associadas a um aplicativo do App Hub, acesse a seção Associado ao aplicativo. Uma entrada nesta seção lista o ID do aplicativo e links para um painel que mostra informações sobre ele. A segunda entrada lista uma carga de trabalho ou um serviço e vincula a um painel.

Ver informações complementares

A seção Rótulos mostra os rótulos e valores do recurso monitorado e a métrica da série temporal que causou o incidente, além dos rótulos definidos pelo usuário na política de alertas. Essas informações podem ajudar a identificar o recurso monitorado específico que causou o incidente. Para mais informações, consulte Classificar incidentes com rótulos.

A seção Documentação mostra o modelo de documentação para notificações que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que a política de alertas monitora e dicas para mitigação. Para mais informações, consulte Anotar notificações com documentação definida pelo usuário.

Se você não configurou a documentação para sua política de alertas, o painel Documentação mostra "Nenhuma documentação está configurada".

Para ajudar você a descobrir problemas subjacentes no aplicativo, analise incidentes relacionados a outras condições política de alertas.

A seção Incidentes relacionados mostra uma lista de incidentes que correspondem a uma das seguintes opções:

  • O incidente foi criado quando uma condição da mesma política de alertas foi atendida.
  • O incidente compartilha um rótulo com o incidente mostrado na página Detalhes do incidente.

Gerenciar incidentes

Os incidentes estão em um dos seguintes estados:

  •  Aberto: o conjunto de condições da política de alertas está sendo atendido ou não há dados para indicar que a condição não é mais atendida. Se uma política de alertas contiver várias condições, os incidentes serão abertos dependendo de como essas condições são combinadas. Para mais informações, consulte Políticas com várias condições.

  •  Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.

  •  Fechada: o sistema observou que a condição parou de ser atendida, você fechou o incidente ou sete dias se passaram sem uma observação de que a condição continuou sendo atendida de dados.

Ao configurar uma política de alertas, verifique se o estado estável fornece um sinal quando tudo está OK. Isso é necessário para garantir que o estado sem erros possa ser identificado e, se um incidente estiver aberto, para que esse incidente seja fechado. Se não houver sinal para indicar que uma condição de erro foi interrompida, depois que um incidente é aberto, ele permanece aberto por sete dias após o acionamento da política de alertas.

Por exemplo, se você criar uma política de alertas que notifique você quando a contagem de erros for maior que 0, certifique-se de produzir uma contagem de 0 erros quando não houver erros. Se a política de alertas retornar nulo ou vazio no estado livre de erros, não haverá sinal para indicar quando os erros foram interrompidos. Se necessário, a PromQL permite especificar um valor padrão que é usado quando nenhum valor medido está disponível.

Confirmar incidentes

Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.

Para marcar um incidente como confirmado, faça o seguinte:

  1. Na tabela Incidentes da página Alertas, clique em Ver todos os incidentes.
  2. Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Confirmar.
    • Abra a página de detalhes do incidente e clique em Confirmar incidente.

Se a política de alertas estiver configurada para enviar notificações repetidas, o reconhecimento de um incidente não vai interromper as notificações. Para interromper, faça o seguinte:

  • Crie uma suspensão para a política de alertas.
  • Desative a política de alertas.

Suspender uma política de alertas

Para impedir que o Monitoring crie incidentes e envie notificações durante um período específico, adie a política de alertas relacionada. Quando você adia uma política de alertas, o Monitoring também fecha todos os incidentes relacionados a ela.

Para criar uma suspensão de um incidente que você está visualizando, faça o seguinte:

  1. Na página Detalhes do incidente, clique em Adiar política.

  2. Selecione a duração do adiamento. Depois de selecionar a duração, o adiamento começa imediatamente.

Você também pode adiar uma política de alertas na página Incidentes. Para isso, encontre o incidente que você quer adiar, clique em  Mais opções e selecione Adiar. É possível adiar as políticas de alertas durante interrupções para evitar mais notificações durante o processo de solução de problemas.

Fechar incidentes

É possível permitir que o Monitoring feche um incidente ou encerrar um incidente depois que as observações pararem de chegar. Se você fechar um incidente e receber dados que indiquem que a condição foi atendida, um novo incidente será criado. Quando você fecha um incidente, essa ação não fecha nenhum outro incidente aberto para a mesma condição. Se você adiar uma política de alertas, os incidentes abertos serão fechados quando o adiamento começar.

O Monitoring fecha automaticamente um incidente quando uma das seguintes situações ocorre:

  • Condições de limite de métrica:

    • Uma observação chega indicando que o limite não foi violado.
    • Nenhuma observação chega, a condição é configurada para fechar incidentes quando as observações param de chegar, e o estado do recurso subjacente é desconhecido ou não está desativado.

    • Nenhuma observação chega durante o período de fechamento automático da política de alertas, e a condição não está configurada para fechar automaticamente os incidentes quando as observações param de chegar. Para configurar a duração do fechamento automático, use o console do Google Cloud ou a API Monitoring. Por padrão, a duração do fechamento automático é de sete dias. A duração mínima de fechamento automático é de 30 minutos.

  • Condições de ausência de métrica:

    • Uma observação ocorre.
    • Nenhuma observação chega por 24 horas após o fim da duração do fechamento automático da política de alertas. Para configurar a duração do fechamento automático, use o console do Google Cloud ou a API Monitoring. Por padrão, a duração do fechamento automático é de sete dias.
  • Condições de previsão:

    • Uma previsão é gerada e prevê que a série temporal não vai violar o limite dentro da janela de previsão.
    • Nenhuma observação chega por 10 minutos, a condição é configurada para fechar incidentes quando as observações param de chegar e o estado do recurso subjacente é desconhecido ou não está desativado.

    • Nenhuma observação chega durante o período de fechamento automático da política de alertas, e a condição não está configurada para fechar automaticamente os incidentes quando as observações param de chegar.

Por exemplo, uma política de alertas gerou um incidente porque a latência da resposta HTTP foi maior que 2 segundos por 10 minutos consecutivos. Se a próxima medição da latência de resposta HTTP for menor ou igual a dois segundos, o incidente será fechado. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.

Para fechar um incidente, faça o seguinte:

  1. Na tabela Incidentes da página Alertas, clique em Ver todos os incidentes.
  2. Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:

    • Clique em  Ver mais e selecione Fechar incidente
    • Abra a página Detalhes do incidente e clique em Fechar incidente.

Se você vir a mensagem Unable to close incident with active conditions, o incidente não poderá ser fechado porque os dados foram recebidos no período de alerta mais recente.

Se você vir a mensagem Unable to close incident. Please try again in a few minutes., não foi possível encerrar o incidente devido a um erro interno.

Retenção e limites de dados

Para informações sobre limites e o período de armazenamento de incidentes, consulte Limites para alertas.

A seguir