通过自动重试提高 playbook 的弹性

支持的平台:

本文档介绍了 playbook 中的自动化操作有时会因网络中断或 API 速率限制等临时问题而失败。为确保 playbook 具有更高的恢复能力,您可以将各个操作配置为在遇到此类故障时自动重试。

操作重试有助于您的 playbook 从暂时性故障(例如网络问题、API 速率限制或服务不可用)中恢复。这些重试适用于标准剧本操作,例如丰富化、遏制或通知。

对于超时的操作,系统不会尝试重试。它们也不适用于流程控制操作(例如条件或剧本块),因为这些操作并非以相同的方式设计为会失败。

配置操作重试

如需为操作配置重试,请按以下步骤操作:

  1. 在剧本设计器中双击相关操作。
  2. 在边栏中,点击设置标签页,然后点击失败时重试切换开关,将其切换到开启位置。
  3. 指定以下参数:
    • 重试次数:输入操作失败时应尝试重新运行的次数。
    • 重试之间的延迟时间:定义每次重试尝试之间的延迟时间(以秒、分钟或小时为单位)。
  4. 如果步骤失败部分,如果操作在所有重试尝试后最终失败,请选择以下选项之一:
    • 停止 playbook:停止执行 playbook。
    • 跳过步骤:playbook 继续执行下一步。
  5. 点击保存

在 playbook 执行期间,重试如何显示

当包含重试的 playbook 步骤运行时,您会看到指示重试尝试进度的特定状态和消息:

  • 如果某项操作在配置了重试的情况下失败,那么在下一次尝试之前,playbook 标签页中该操作的状态会暂时变为等待下一次重试
  • 如果操作在一次或多次重试后成功,则其在 Playbook 标签页中的最终状态会显示为成功,并附带重试次数(例如,Completed after two retries)。
  • 如果操作在所有重试尝试后仍失败,其最终状态会指示失败,并显示重试次数(例如重试 3 次后失败)。
  • 重试尝试的相关信息也会显示在支持请求墙上。

需要更多帮助?从社区成员和 Google SecOps 专业人士那里获得解答。