本文档介绍了多代理 AI 系统的高级架构,该系统可在安全运维中心 (SOC) 中编排复杂的调查和分诊流程。代理系统可协调不同安全系统(例如安全信息和事件管理 (SIEM) 系统、威胁情报 Feed、云安全状况管理 (CSPM) 平台以及端点检测和响应 (EDR) 解决方案)的工作流。代理系统可以执行以下操作:
- 查找 Google Security Operations 发出的严重提醒。
- 使用 Google Threat Intelligence 丰富提醒内容。
- 通过第三方 CSPM 工具查找资产错误配置。
- 实现人机协同审批。
- 从第三方 EDR 工具检索详细的端点遥测数据和进程执行历史记录,以调查遭到入侵或可疑的端点。
此架构有助于提高运营人员的效率,因为它减少了上下文切换,并使运营人员能够使用单个界面执行复杂的多阶段调查。
本文档的目标受众群体包括负责设计、构建和实现智能体 AI 应用,以及将这些应用与云环境中的现有安全系统集成的架构师和开发者。目标受众群体还包括负责监督安全运维、使用威胁情报进行主动防御,以及管理强大的 SecOps 工作流以进行突发事件检测、调查和响应的 SOC 分析师和系统管理员。本文档假定您对智能体 AI 概念有基础了解,包括多智能体系统、智能体工具使用和智能体编排。本文档还假定您熟悉威胁情报使用场景、安全运维工作流和常见安全工具。如需了解威胁情报和常见安全工具,请参阅威胁情报使用场景和示例。
架构
您可以根据自己的需求选择以下部署模型:
- Cloud Run 部署:这是一个全代管式无服务器平台,可让您将整个代理应用、各个组件或自定义工具部署为可伸缩的 HTTP 端点,而无需管理底层基础设施。
- 部署了 Gemini Enterprise 的 Vertex AI Agent Engine:一个全代管式、有主张的运行时环境,可用于部署、运行和扩缩智能体应用,且运营开销极低。
如需了解如何选择智能体 AI 运行时,请参阅选择智能体 AI 架构组件。
以下标签页提供了架构图,其中显示了 Cloud Run 部署和 Vertex AI Agent Engine 与 Gemini Enterprise 的部署。
Cloud Run
下图详细展示了部署在 Cloud Run 上的 SOC 代理系统架构:
该架构显示了以下组件:
| 组件 | 说明 |
|---|---|
| Cloud Load Balancing | 应用负载平衡器将安全分析师发出的传入推理请求路由到代理系统。 |
| Google Cloud Armor | 根据配置的 Web 应用防火墙 (WAF) 规则强制执行安全政策。 |
| Identity-Aware Proxy (IAP) | 强制执行零信任安全模型并验证用户身份。 |
| Model Armor | 借助 Model Armor,您可以检查和清理提示、工具互动和回答。它可为任何底层 AI 模型提供灵活的安全控制措施。对于在 Cloud Run 上运行的自定义代理,请使用 Model Armor API 集成 Model Armor。 |
| 代理组合 | 智能体开发套件 (ADK) 是一种智能体开发框架,可帮助您构建智能体并将其部署为无服务器 Cloud Run 服务。如需详细了解此代理系统的内部架构,请参阅本文档后面的代理系统架构部分。 |
| AI 模型 | 为了提供推理服务,此架构中的代理使用 Vertex AI 上的 AI 模型。 |
| MCP 服务器 |
Model Context Protocol (MCP) 可帮助访问工具,并标准化代理与工具之间的互动。代理系统使用以下 MCP 服务器:
|
使用的产品
此示例架构使用以下 Google Cloud 产品和工具:
- Cloud Run:一个无服务器计算平台,可让您直接在 Google 可伸缩的基础设施之上运行容器。
- Cloud Load Balancing:一组高性能、可扩缩的全球和区域级负载均衡器。
- Google Cloud Armor:一种网络安全服务,提供 Web 应用防火墙 (WAF) 规则,并可帮助防范 DDoS 攻击和应用攻击。
- Identity-Aware Proxy (IAP):一项可为应用和虚拟机启用零信任访问模型的服务。
- Google Security Operations:一个安全运维平台,可帮助安全团队检测、调查和应对网络威胁。
- Google Threat Intelligence:一种安全解决方案,可提供全面而主动的方法来识别、分析和缓解安全威胁。
- Google Cloud MCP 服务器:由 Google 管理的远程服务,用于实现 Model Context Protocol (MCP),以便为 AI 应用提供对 Google 和 Google Cloud 产品和服务的访问权限。
- Gemini:Google 开发的一系列多模态 AI 模型。
- Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
- 智能体开发套件 (ADK):一套用于开发、测试和部署 AI 代理的工具和库。
- Model Armor:一项服务,可为您的生成式 AI 和智能体 AI 资源提供防护,抵御提示注入、敏感数据泄露和有害内容。
Vertex AI Agent Engine(搭配 Gemini Enterprise)
下图详细展示了在 Vertex AI Agent Engine 上部署的 SOC 智能体 AI 系统(使用 Gemini Enterprise):
架构图显示了以下组件:
| 组件 | 说明 |
|---|---|
| Gemini Enterprise | 用户通过 Gemini Enterprise 提供的聊天助理与代理系统互动。 |
| 代理组合 | 智能体开发套件 (ADK) 是一种智能体开发框架,可帮助您创建自定义智能体、在 Vertex AI Agent Engine 上部署智能体,以及向 Gemini Enterprise 注册智能体。如需详细了解此代理系统的内部架构,请参阅本文档后面的代理系统架构部分。 |
| AI 模型 | 此架构中的代理使用 Vertex AI Model Garden 中的 AI 模型执行推理。 |
| Model Armor | 为了强制执行企业安全和合规性政策,Model Armor 直接与 Google Cloud 服务集成,以提供对用户提示和模型回答的内嵌检查和清理。通过与 Gemini Enterprise 和 Vertex AI 的内置集成,Model Armor 可自动筛查用户与受管代理之间的互动。如需了解详情,请参阅 Model Armor 与 Google Cloud 服务集成。 |
| MCP 服务器 |
Model Context Protocol (MCP) 可简化对工具的访问,并标准化代理与工具之间的互动。代理系统使用以下 MCP 服务器:
|
使用的产品
此示例架构使用以下 Google Cloud 产品和工具:
- Vertex AI Agent Engine:一个平台,可让您在生产环境中运行、管理和扩缩 AI 代理。
- Gemini Enterprise:一个全托管式安全平台,可在企业内部部署和管理 AI 智能体。
- Google Security Operations:一个安全运维平台,可帮助安全团队检测、调查和应对网络威胁。
- Google Threat Intelligence:一种安全解决方案,可提供全面而主动的方法来识别、分析和缓解安全威胁。
- Google Cloud MCP 服务器:由 Google 管理的远程服务,用于实现 Model Context Protocol (MCP),以便为 AI 应用提供对 Google 和 Google Cloud 产品和服务的访问权限。
- Gemini:Google 开发的一系列多模态 AI 模型。
- Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
- 智能体开发套件 (ADK):一套用于开发、测试和部署 AI 代理的工具和库。
- Model Armor:一项服务,可为您的生成式 AI 和智能体 AI 资源提供防护,抵御提示注入、敏感数据泄露和有害内容。
智能体系统架构
本部分介绍了上述 Cloud Run 或 Gemini Enterprise 部署的自定义 SOC 代理系统架构。为了编排复杂的安全工作流,该代理使用分层任务分解模式。无论您选择哪种部署方法,智能体的组成都保持一致。
下图展示了代理系统架构的详细视图:
该架构显示了以下组件:
| 组件 | 说明 |
|---|---|
| 应用 | 与用户互动的聊天界面等前端应用。您可以选择使用 Cloud Run 或 Vertex AI Agent Engine with Gemini Enterprise 部署应用。 |
| 代理 |
此架构使用以下代理:
代理系统架构图显示了一个使用两个 SOC 角色的示例架构。您可以根据具体的使用情形部署其他 SOC 角色,也可以创建自己的自定义角色。如需查看可帮助您增强安全运维能力的更广泛的 SOC 角色列表,请参阅 SOC 角色。 |
| RAG 知识数据库 | 此数据库为检索增强生成 (RAG) 提供了接地源。该数据库用于为代理提供突发事件响应计划和 AI 运行手册。 AI 运行手册是 Agent Skills 形式的规范性工作流。 |
| 制品服务 | 一种代管式服务,用于在 Cloud Storage 中存储调查报告和证据。 |
| 记忆库 | 一种持久性状态管理系统,用于存储自定义记忆主题,并让代理能够在不同会话中保持环境和威胁上下文。 |
| AI 模型 | 为了提供推理服务,此架构中的代理使用 Vertex AI 上的最新 Gemini 模型。 |
| MCP 服务器 | MCP 服务器有助于访问工具,并标准化代理与工具之间的互动。对于每个代理-工具对,MCP 客户端都会通过 MCP 服务器向代理发送请求,代理通过该服务器访问工具,例如数据库、文件系统或 API。 |
| 代理工具 | 借助这些工具,客服人员可以检索接地数据,例如相应的 AI runbook、 突发事件响应计划、之前的报告、内部文档和 playbook。 |
| ADK | ADK 提供用于开发、测试和部署代理的工具和框架。ADK 可抽象化智能体创建的复杂性,让 AI 开发者专注于智能体的逻辑和功能。 |
该架构展示了以下数据传输:
- 安全分析师向作为协调代理的 SOC 经理提交请求。例如,某位分析师提交了调查支持请求 #37。
- 部署在 Cloud Run 或 Gemini Enterprise 上的应用会将请求路由到 SOC 管理器。
- SOC 经理使用 Gemini 来解读用户的请求。
- SOC 管理员会执行以下任务来收集有关请求的背景信息:
- SOC 管理员使用 Gemini 及其检索到的上下文将请求分解为一系列子任务,并确定合适的工具。
- SOC 管理器会将子任务动态定向到专业子智能体,例如 Tier 1 分析师和网络威胁情报 (CTI) 研究员。
- 每个子智能体都会执行以下操作来执行其分配的子任务:
- 使用 Gemini 来解读任务目标。
- 从 RAG 知识数据库、记忆和制品中提取相关上下文。
- 使用 MCP 服务器收集以下额外背景信息,以便生成更贴合实际的回答:
- 知识文档,例如之前的报告、内部文档和剧本。
- 使用 Google SecOps 和 Google Threat Intelligence 中的数据的安全情报和遥测。
- 使用 Gemini 和其检索到的上下文生成发现。
- 将研究结果打包成结构化摘要。
- 将中间响应转发回 SOC 管理器。
- SOC 管理器会收到来自子代理的中间响应,并根据 AI 运行手册要求评估调查结果。
- 如果调查结果不符合评估标准,SOC 管理器会重复分析用户请求,并将子任务委托给子代理以收集更多数据。在此迭代循环期间,SOC 管理器会保留之前的上下文链,以便为后续的工具调用和子代理委托提供信息并进行增强。SOC 管理器会继续执行此循环,直到发现结果符合评估标准。
- 如果发现结果符合评估标准或退出条件(例如最大迭代次数),SOC 管理器会执行以下操作:
- 使用 Gemini 将所有子代理发现结果整合到调查报告中,并将报告保存到 Artifact Service。
- 使用 Google SecOps MCP 服务器将结果发布到支持请求墙。
- 将新的记忆保存到 Vertex AI 记忆库。
- SOC 经理会将制品链接和报告摘要发送回安全分析师。
使用的产品
本文档中的代理系统架构使用以下 Google Cloud产品和工具:
- Google Security Operations:一个安全运维平台,可帮助安全团队检测、调查和应对网络威胁。
- Google Threat Intelligence:一种安全解决方案,可提供全面而主动的方法来识别、分析和缓解安全威胁。
- Google Cloud MCP 服务器:由 Google 管理的远程服务,用于实现 Model Context Protocol (MCP),以便为 AI 应用提供对 Google 和 Google Cloud 产品和服务的访问权限。
- Gemini:Google 开发的一系列多模态 AI 模型。
- Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
- 智能体开发套件 (ADK):一套用于开发、测试和部署 AI 代理的工具和库。
- Model Armor:一项服务,可为您的生成式 AI 和智能体 AI 资源提供防护,抵御提示注入、敏感数据泄露和有害内容。
- 记忆库:一种永久性存储服务,可根据用户与代理的对话生成、优化、管理和检索长期记忆。
- Cloud Storage:适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问,并且跨位置进行复制以实现冗余。
如需了解如何为智能体 AI 系统选择替代组件(包括框架、智能体运行时、工具、内存和设计模式),请参阅选择智能体 AI 架构组件。
设计考虑事项
如需在生产环境中实现此架构,请考虑以下建议:
- 智能体工具访问权限:为了减少令牌消耗并强制执行最小权限原则,请根据需要向不同的智能体提供部分工具。
- 代理范围界定:为了提高模型准确性,请界定每个代理的 Runbook 和系统指令。
- 上下文窗口管理:为尽量减少词元消耗,请设计简洁的提示和工具输出。使用 RAG 代码库,并使用代理技能预加载上下文和总结大型工具响应。
- 提示缓存:为了降低输入 token 费用,请缓存静态代理内容,例如系统指令、角色、runbook 和工具架构。
- 模型选择:您为 AI 应用选择的模型会直接影响费用和性能。根据不同的智能体角色和任务要求,在智能体系统中选择不同的模型。对于复杂的推理和任务分解,请使用 Gemini Pro 等思考模型。对于小型直接任务,请使用 Gemini Flash 等快速且低成本的模型。
- MCP 架构兼容性:为防止 AI 模型错误解读工具定义并做出错误的工具调用,请清理工具架构。为 JSON 架构
$ref和$defs创建自包含的结构,并对大写类型字符串进行归一化处理。 - 身份验证环境:为确保跨环境的身份验证顺畅无缝,请配置部署流水线,以管理从开发身份验证策略的过渡。例如,您可能需要从本地执行中的应用默认凭证 (ADC) 转换到由 Identity and Access Management (IAM) 管理的生产环境中托管的远程 MCP 服务器的服务账号。
部署
如需部署可提供自定义 SOC 代理的此架构的示例实现,请使用 GitHub 中提供的 Agentic SOC Gemini Enterprise 代码示例。
我们建议您按以下顺序迭代代理:
- 使用 ADK Web 在本地部署:加快原型设计速度,快速迭代智能体逻辑。
- 部署到本地容器:确保环境可移植且不可变,并具有一致的依赖项。
- 将容器部署到 Cloud Run 或 Vertex AI Agent Engine:扩缩智能体,以实现高效的安全运维,并将应用从开发阶段转移到生产阶段。
后续步骤
- 了解如何在 Cloud Run 上托管 AI 智能体
- 了解利用生成式 AI 来增强安全性。
- 了解 Gemini Enterprise 安全概览。
- 了解如何使用 Google Cloud构建多智能体 AI 系统。
- 使用 Google SecOps MCP 服务器将代理连接到 Google SecOps 数据。
- 查看 Google Cloud Well-Architected Framework 中的安全性透视。
- 如需查看更多参考架构、图表和最佳做法,请浏览云架构中心。
贡献者
作者:
- Ben Perel | 安全专家
- Daniel Dye | SecOps AI 工程师
其他贡献者:
- Amr Abdelrazik | 组合产品经理
- Kumar Dhanagopal | 跨产品解决方案开发者
- Samantha He | 技术文档工程师