Aumentar a resiliência do playbook com novas tentativas automáticas

Compatível com:

Este documento explica por que as ações automatizadas em playbooks às vezes falham devido a problemas temporários, como interrupções de rede ou limites de taxa da API. Para garantir que seus playbooks sejam mais resilientes, configure ações individuais para tentar de novo automaticamente se elas encontrarem essas falhas.

As novas tentativas de ação ajudam os playbooks a se recuperar de falhas temporárias, como problemas de rede, limites de taxa da API ou indisponibilidade do serviço. Essas novas tentativas se aplicam a ações padrão do playbook, como enriquecimento, contenção ou notificações.

O mecanismo de repetição é acionado pelo status de execução interna da ação, não por códigos de erro HTTP padrão. Não há novas tentativas para ações que encontram tempos limite ou ações usadas para controle de fluxo (como condições ou blocos de playbook), porque elas não foram projetadas para falhar da mesma forma.

Condições do mecanismo de repetição de ações

O mecanismo de nova tentativa é acionado somente quando uma ação falha em condições específicas que geralmente indicam uma falha transitória, de infraestrutura ou não processada. Ela não é ativada para falhas relacionadas a tempos limite ou ações de controle de fluxo.

Condições que ativam uma nova tentativa

O mecanismo de repetição só é ativado quando a ação falha nas seguintes circunstâncias:

  • Erros de script não tratados:qualquer erro ou exceção que ocorra no script Python da ação e que não seja tratado explicitamente no script.
  • Status de falha explícita:o script de ação retorna explicitamente o estado de execução EXECUTION_STATE_FAILED ao servidor.
  • Falhas de infraestrutura:falhas que surgem da infraestrutura subjacente, como problemas de conexão (por exemplo, erros de conexão do Python) que impedem um resultado bem-sucedido.

Condições que ignoram uma nova tentativa (nenhuma tentativa feita)

As novas tentativas são ignoradas em cenários de falha relacionados a tempos limite ou ações de controle de fluxo:

  • Tempo limite de execução do playbook:a ação não é concluída e não retorna um resultado dentro do limite de tempo limite geral configurado para a etapa específica do playbook.
  • Status de tempo limite processado:o script de ação informa explicitamente um tempo limite de ação interna retornando o status EXECUTION_STATE_TIMEOUT. O servidor trata isso como um "tempo limite processado", o que permite que a execução do playbook continue sem uma nova tentativa.

Configurar novas tentativas de ação

Para configurar novas tentativas de uma ação, siga estas etapas:

  1. Clique duas vezes na ação relevante no designer de playbook.
  2. Na barra lateral, clique na guia Configurações e depois no botão Tentar novamente em caso de falha para ativar.
  3. Especifique os seguintes parâmetros:
    • Número de novas tentativas:digite quantas vezes a ação deve tentar ser executada novamente se falhar.
    • Atraso entre novas tentativas:defina o atraso em segundos, minutos ou horas entre cada nova tentativa.
  4. Na seção Se a etapa falhar, selecione uma das seguintes opções se a ação falhar após todas as tentativas de nova execução:
    • Parar playbook: a execução do playbook é interrompida.
    • Pular etapa: o playbook continua para a próxima etapa.
  5. Clique em Salvar.

Como as novas tentativas aparecem durante a execução do playbook

Quando uma etapa de playbook com novas tentativas é executada, você vê status e mensagens específicos que indicam o progresso das tentativas:

  • Se uma ação falhar com novas tentativas configuradas, o status dela na guia Playbooks mudará temporariamente para Aguardando nova tentativa antes da próxima tentativa.
  • Se a ação for bem-sucedida após uma ou mais tentativas, o status final na guia Playbooks vai indicar sucesso, junto com o número de tentativas (por exemplo, Concluído após duas tentativas).
  • Se a ação falhar após todas as tentativas, o status final vai indicar falha, junto com o número de novas tentativas (por exemplo, Falha após 3 tentativas).
  • Informações relevantes sobre tentativas de repetição também aparecem no Mural de casos.

Precisa de mais ajuda? Receba respostas de membros da comunidade e profissionais do Google SecOps.