智能体 AI 应用场景:编排安全运维工作流

Last reviewed 2026-04-08 UTC

本文档介绍了多代理 AI 系统的高级架构,该系统可在安全运维中心 (SOC) 中编排复杂的调查和分诊流程。代理系统可协调不同安全系统(例如安全信息和事件管理 (SIEM) 系统、威胁情报 Feed、云安全状况管理 (CSPM) 平台以及端点检测和响应 (EDR) 解决方案)的工作流。代理系统可以执行以下操作:

  • 查找 Google Security Operations 发出的严重提醒。
  • 使用 Google Threat Intelligence 丰富提醒内容。
  • 通过第三方 CSPM 工具查找资产错误配置。
  • 实现人机协同审批。
  • 从第三方 EDR 工具检索详细的端点遥测数据和进程执行历史记录,以调查遭到入侵或可疑的端点。

此架构有助于提高运营人员的效率,因为它减少了上下文切换,并使运营人员能够使用单个界面执行复杂的多阶段调查。

本文档的目标受众群体包括负责设计、构建和实现智能体 AI 应用,以及将这些应用与云环境中的现有安全系统集成的架构师和开发者。目标受众群体还包括负责监督安全运维、使用威胁情报进行主动防御,以及管理强大的 SecOps 工作流以进行突发事件检测、调查和响应的 SOC 分析师和系统管理员。本文档假定您对智能体 AI 概念有基础了解,包括多智能体系统、智能体工具使用和智能体编排。本文档还假定您熟悉威胁情报使用场景、安全运维工作流和常见安全工具。如需了解威胁情报和常见安全工具,请参阅威胁情报使用场景和示例

架构

您可以根据自己的需求选择以下部署模型:

  • Cloud Run 部署:这是一个全代管式无服务器平台,可让您将整个代理应用、各个组件或自定义工具部署为可伸缩的 HTTP 端点,而无需管理底层基础设施。
  • 部署了 Gemini Enterprise 的 Vertex AI Agent Engine:一个全代管式、有主张的运行时环境,可用于部署、运行和扩缩智能体应用,且运营开销极低。

如需了解如何选择智能体 AI 运行时,请参阅选择智能体 AI 架构组件

以下标签页提供了架构图,其中显示了 Cloud Run 部署和 Vertex AI Agent Engine 与 Gemini Enterprise 的部署。

Cloud Run

下图详细展示了部署在 Cloud Run 上的 SOC 代理系统架构:

部署在 Cloud Run 上的 SOC 代理系统的详细架构。

该架构显示了以下组件:

组件 说明
Cloud Load Balancing 应用负载平衡器将安全分析师发出的传入推理请求路由到代理系统。
Google Cloud Armor 根据配置的 Web 应用防火墙 (WAF) 规则强制执行安全政策。
Identity-Aware Proxy (IAP) 强制执行零信任安全模型并验证用户身份。
Model Armor 借助 Model Armor,您可以检查和清理提示、工具互动和回答。它可为任何底层 AI 模型提供灵活的安全控制措施。对于在 Cloud Run 上运行的自定义代理,请使用 Model Armor API 集成 Model Armor。
代理组合 智能体开发套件 (ADK) 是一种智能体开发框架,可帮助您构建智能体并将其部署为无服务器 Cloud Run 服务。如需详细了解此代理系统的内部架构,请参阅本文档后面的代理系统架构部分。
AI 模型 为了提供推理服务,此架构中的代理使用 Vertex AI 上的 AI 模型。
MCP 服务器 Model Context Protocol (MCP) 可帮助访问工具,并标准化代理与工具之间的互动。代理系统使用以下 MCP 服务器:

使用的产品

此示例架构使用以下 Google Cloud 产品和工具:

Vertex AI Agent Engine(搭配 Gemini Enterprise)

下图详细展示了在 Vertex AI Agent Engine 上部署的 SOC 智能体 AI 系统(使用 Gemini Enterprise):

在 Vertex AI Agent Engine 上部署的 SOC 代理 AI 系统(使用 Gemini Enterprise)的详细架构。

架构图显示了以下组件:

组件 说明
Gemini Enterprise 用户通过 Gemini Enterprise 提供的聊天助理与代理系统互动。
代理组合 智能体开发套件 (ADK) 是一种智能体开发框架,可帮助您创建自定义智能体、在 Vertex AI Agent Engine 上部署智能体,以及向 Gemini Enterprise 注册智能体。如需详细了解此代理系统的内部架构,请参阅本文档后面的代理系统架构部分。
AI 模型 此架构中的代理使用 Vertex AI Model Garden 中的 AI 模型执行推理。
Model Armor 为了强制执行企业安全和合规性政策,Model Armor 直接与 Google Cloud 服务集成,以提供对用户提示和模型回答的内嵌检查和清理。通过与 Gemini Enterprise 和 Vertex AI 的内置集成,Model Armor 可自动筛查用户与受管代理之间的互动。如需了解详情,请参阅 Model Armor 与 Google Cloud 服务集成
MCP 服务器 Model Context Protocol (MCP) 可简化对工具的访问,并标准化代理与工具之间的互动。代理系统使用以下 MCP 服务器:
  • Google SecOps MCP 服务器:由 Google 管理的 MCP 服务器,可提供对 Google SecOps SIEM Google SecOps SOAR 数据的访问权限,包括事件、实体、原始日志和案例详情。
  • Google Threat Intelligence MCP 服务器:一种本地 MCP 服务器,可提供对 Google Threat Intelligence 的访问权限。Google Threat Intelligence 会将内部环境中的提醒与全球攻击者数据相关联,并简化 SOC 工作流中已知恶意指标的识别流程。
  • 第三方 MCP 服务器:由第三方供应商管理的连接器,可让您与外部安全工具互动。

使用的产品

此示例架构使用以下 Google Cloud 产品和工具:

智能体系统架构

本部分介绍了上述 Cloud Run 或 Gemini Enterprise 部署的自定义 SOC 代理系统架构。为了编排复杂的安全工作流,该代理使用分层任务分解模式。无论您选择哪种部署方法,智能体的组成都保持一致。

下图展示了代理系统架构的详细视图: 针对代理 SecOps 工作流的详细代理 AI 系统架构。

该架构显示了以下组件:

组件 说明
应用 与用户互动的聊天界面等前端应用。您可以选择使用 Cloud Run 或 Vertex AI Agent Engine with Gemini Enterprise 部署应用。
代理

此架构使用以下代理:

  • 根代理:一种 协调器代理,用于接收来自用户的请求。根代理会解读用户请求,并尝试自行解决该请求。如果任务需要使用专业工具,则根代理会将请求委托给相应的专业代理。
  • 专业智能体:根智能体调用以下专业智能体:
    • 1 级分析师:检索提醒详细信息,识别受影响的资产,并在查询 Google SecOps 和相关遥测来源时提取用户上下文。
    • 网络威胁情报 (CTI) 研究员:研究与特定提醒相关的威胁行为者策略。该代理通过查询威胁情报平台来关联内部 失陷指标 (IOC) 与已知的威胁行为者群体和记录在案的 战术、技术和程序 (TTP),从而提供活动风险评估。

代理系统架构图显示了一个使用两个 SOC 角色的示例架构。您可以根据具体的使用情形部署其他 SOC 角色,也可以创建自己的自定义角色。如需查看可帮助您增强安全运维能力的更广泛的 SOC 角色列表,请参阅 SOC 角色

RAG 知识数据库 此数据库为检索增强生成 (RAG) 提供了接地源。该数据库用于为代理提供突发事件响应计划AI 运行手册。 AI 运行手册是 Agent Skills 形式的规范性工作流。
制品服务 一种代管式服务,用于在 Cloud Storage 中存储调查报告和证据。
记忆库 一种持久性状态管理系统,用于存储自定义记忆主题,并让代理能够在不同会话中保持环境和威胁上下文。
AI 模型 为了提供推理服务,此架构中的代理使用 Vertex AI 上的最新 Gemini 模型
MCP 服务器 MCP 服务器有助于访问工具,并标准化代理与工具之间的互动。对于每个代理-工具对,MCP 客户端都会通过 MCP 服务器向代理发送请求,代理通过该服务器访问工具,例如数据库、文件系统或 API。
代理工具 借助这些工具,客服人员可以检索接地数据,例如相应的 AI runbook、 突发事件响应计划、之前的报告、内部文档和 playbook。
ADK ADK 提供用于开发、测试和部署代理的工具和框架。ADK 可抽象化智能体创建的复杂性,让 AI 开发者专注于智能体的逻辑和功能。

该架构展示了以下数据传输:

  1. 安全分析师向作为协调代理的 SOC 经理提交请求。例如,某位分析师提交了调查支持请求 #37。
  2. 部署在 Cloud Run 或 Gemini Enterprise 上的应用会将请求路由到 SOC 管理器。
  3. SOC 经理使用 Gemini 来解读用户的请求。
  4. SOC 管理员会执行以下任务来收集有关请求的背景信息:
    1. 向 RAG 知识库发送查询,以提取相应的 AI runbook(以 AI 技能形式呈现的规范性工作流)和突发事件响应计划
    2. 提取之前的记忆,以确定代理系统是否分析过类似事件。
    3. 检查制品服务中是否存在与请求相关的现有报告或证据。
  5. SOC 管理员使用 Gemini 及其检索到的上下文将请求分解为一系列子任务,并确定合适的工具。
  6. SOC 管理器会将子任务动态定向到专业子智能体,例如 Tier 1 分析师和网络威胁情报 (CTI) 研究员。
  7. 每个子智能体都会执行以下操作来执行其分配的子任务:
    1. 使用 Gemini 来解读任务目标。
    2. 从 RAG 知识数据库、记忆和制品中提取相关上下文。
    3. 使用 MCP 服务器收集以下额外背景信息,以便生成更贴合实际的回答:
      • 知识文档,例如之前的报告、内部文档和剧本。
      • 使用 Google SecOps 和 Google Threat Intelligence 中的数据的安全情报和遥测。
    4. 使用 Gemini 和其检索到的上下文生成发现。
    5. 将研究结果打包成结构化摘要。
    6. 将中间响应转发回 SOC 管理器。
  8. SOC 管理器会收到来自子代理的中间响应,并根据 AI 运行手册要求评估调查结果。
    1. 如果调查结果不符合评估标准,SOC 管理器会重复分析用户请求,并将子任务委托给子代理以收集更多数据。在此迭代循环期间,SOC 管理器会保留之前的上下文链,以便为后续的工具调用和子代理委托提供信息并进行增强。SOC 管理器会继续执行此循环,直到发现结果符合评估标准。
    2. 如果发现结果符合评估标准或退出条件(例如最大迭代次数),SOC 管理器会执行以下操作:
      1. 使用 Gemini 将所有子代理发现结果整合到调查报告中,并将报告保存到 Artifact Service
      2. 使用 Google SecOps MCP 服务器将结果发布到支持请求墙
      3. 将新的记忆保存到 Vertex AI 记忆库
  9. SOC 经理会将制品链接和报告摘要发送回安全分析师。

使用的产品

本文档中的代理系统架构使用以下 Google Cloud产品和工具:

  • Google Security Operations:一个安全运维平台,可帮助安全团队检测、调查和应对网络威胁。
  • Google Threat Intelligence:一种安全解决方案,可提供全面而主动的方法来识别、分析和缓解安全威胁。
  • Google Cloud MCP 服务器:由 Google 管理的远程服务,用于实现 Model Context Protocol (MCP),以便为 AI 应用提供对 Google 和 Google Cloud 产品和服务的访问权限。
  • Gemini:Google 开发的一系列多模态 AI 模型。
  • Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
  • 智能体开发套件 (ADK):一套用于开发、测试和部署 AI 代理的工具和库。
  • Model Armor:一项服务,可为您的生成式 AI 和智能体 AI 资源提供防护,抵御提示注入、敏感数据泄露和有害内容。
  • 记忆库:一种永久性存储服务,可根据用户与代理的对话生成、优化、管理和检索长期记忆。
  • Cloud Storage:适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问,并且跨位置进行复制以实现冗余。

如需了解如何为智能体 AI 系统选择替代组件(包括框架、智能体运行时、工具、内存和设计模式),请参阅选择智能体 AI 架构组件

设计考虑事项

如需在生产环境中实现此架构,请考虑以下建议:

  • 智能体工具访问权限:为了减少令牌消耗并强制执行最小权限原则,请根据需要向不同的智能体提供部分工具。
  • 代理范围界定:为了提高模型准确性,请界定每个代理的 Runbook 和系统指令。
  • 上下文窗口管理:为尽量减少词元消耗,请设计简洁的提示和工具输出。使用 RAG 代码库,并使用代理技能预加载上下文和总结大型工具响应。
  • 提示缓存:为了降低输入 token 费用,请缓存静态代理内容,例如系统指令、角色、runbook 和工具架构。
  • 模型选择:您为 AI 应用选择的模型会直接影响费用和性能。根据不同的智能体角色和任务要求,在智能体系统中选择不同的模型。对于复杂的推理和任务分解,请使用 Gemini Pro 等思考模型。对于小型直接任务,请使用 Gemini Flash 等快速且低成本的模型。
  • MCP 架构兼容性:为防止 AI 模型错误解读工具定义并做出错误的工具调用,请清理工具架构。为 JSON 架构 $ref$defs 创建自包含的结构,并对大写类型字符串进行归一化处理。
  • 身份验证环境:为确保跨环境的身份验证顺畅无缝,请配置部署流水线,以管理从开发身份验证策略的过渡。例如,您可能需要从本地执行中的应用默认凭证 (ADC) 转换到由 Identity and Access Management (IAM) 管理的生产环境中托管的远程 MCP 服务器的服务账号。

部署

如需部署可提供自定义 SOC 代理的此架构的示例实现,请使用 GitHub 中提供的 Agentic SOC Gemini Enterprise 代码示例

我们建议您按以下顺序迭代代理:

  1. 使用 ADK Web 在本地部署:加快原型设计速度,快速迭代智能体逻辑。
  2. 部署到本地容器:确保环境可移植且不可变,并具有一致的依赖项。
  3. 将容器部署到 Cloud Run 或 Vertex AI Agent Engine:扩缩智能体,以实现高效的安全运维,并将应用从开发阶段转移到生产阶段。

后续步骤

贡献者

作者:

其他贡献者: