Google Distributed Cloud 网闸隔离配置 1.15.1 版版本说明

2024 年 12 月 5 日


Google Distributed Cloud (GDC) 网闸隔离配置 1.15.1 版现已推出。
请参阅产品概览,了解 Distributed Cloud 的功能。

以下新功能现已推出:

集群管理

  • 添加了新的标准集群配置。标准集群的范围限定为单个项目,这使得受限于项目的应用开发者可以直接控制集群的运行方式。如需了解详情,请参阅 Kubernetes 集群配置

gdcloud CLI

  • 新增了对从 macOS 和 Windows 操作系统运行 gdcloud CLI 的支持。如需了解详情,请参阅可用的 gdcloud CLI 软件包

  • 为 Linux 添加了 gdcloud CLI 软件包的 精简版,该版本提供了一个较小的二进制文件,其中包含一部分 gdcloud CLI 命令。 如需了解详情,请参阅可用的 gdcloud CLI 软件包

网络

  • 我们新增了一项出站 NAT 功能 Cloud NAT,可提供更多选项来配置工作负载如何访问组织外部的网络。如需了解详情,请参阅 Cloud NAT。之前提供的 NAT 机制(称为项目默认出站流量 NAT)已被弃用;建议用户migrate到 Cloud NAT。

    在 1.15.1 版本中,Cloud NAT 角色 cloud-nat-manager 已被弃用;请改用 cloud-nat-developer

  • 添加了子网组,以简化 IP 地址分配。借助这一新机制,您可以将同一实体或同一用途的子网作为一个群组进行管理,从而简化从大型受管子网集中分配 IP 地址的过程。如需了解详情,请参阅子网组

  • 互连订阅 SKU 目前处于公开预览版阶段。借助此功能,组织可以在互联上预留物理容量,并将预留与结算项目相关联。目前,预订仅基于诚信原则,系统不会严格强制执行。如需详细了解互连,请参阅通过互连建立连接

  • 现在可以使用 HTTP/HTTPS 协议进行健康检查。健康检查会决定端点是否可以接收新的请求或连接。健康检查确定为不健康的端点不会通过负载均衡器接收流量。如需了解详情,请参阅配置健康检查

  • 添加了对 IP 资源统计信息监控的支持,作为预览版功能。 基础架构运维者 (IO) 和平台管理员 (PA) 可以查看从根级到叶级以及子网组的子网总数、已分配数、可用数和百分比指标。如需获取有关如何访问信息中心的指南,请参阅查询和查看指标

平台身份验证

  • Certificate Authority Service (CAS) 支持预定义的证书模板,可提供现成的模板来针对常见应用场景颁发证书。
  • CAS 通过发布客户端应用可以检查的证书吊销列表 (CRL) 来支持证书吊销

Resource Manager

  • 添加了项目标记作为预览版功能。借助标记,您可以根据业务属性整理项目。如需了解详情,请参阅标记概览

系统

  • 适用于 GDC 组件的已发布系统限制。系统限制是无法更改的固定值。如需了解详情,请参阅系统限制

虚拟机

  • 为虚拟机实例添加了 NVIDIA GPU 支持,让您可以运行各种 GPU 加速的工作负载,例如人工智能 (AI)。 如需了解详情,请参阅创建并启动搭载 NVIDIA GPU 的虚拟机实例
  • a3-ultragpu 虚拟机系列添加了 H200 GPU 支持。
  • 添加了为虚拟机配置 Tier 1 网络。具有 Tier 1 网络配置的虚拟机适用于具有密集型节点间通信的大型分布式计算工作负载,例如高性能计算 (HPC)、机器学习 (ML) 和深度学习 (DL)。
  • 新增了创建高性能虚拟机的功能。
  • 添加了虚拟机可用性检查,可提供有关虚拟机状态的深入信息。
  • 添加了管理软件包代码库的功能。


将 Rocky 操作系统映像版本更新为 20250924,以应用最新的安全补丁和重要更新。

修复了以下安全漏洞:


发现了以下问题:

Anthos Service Mesh

  • 由于节点运行不正常,导致无法安装 CNI,因此 ASM 网格安装被阻止。

备份和恢复

  • 升级后,由于 back-lancer-agent-user-cp 子组件处于 ReconciliationError 状态,备份和恢复操作失败。

  • 由于数据传输速率较慢,涉及卷的恢复可能需要更长时间才能完成。

  • 资源(例如数据库克隆或用户工作负载恢复)的恢复过程因永久性卷声明处于待处理状态而卡住,最终超时。

  • 用户无法使用 GDC 控制台创建虚拟机备份方案,也无法执行端到端备份和恢复任务。

  • 集群备份的恢复操作失败。

块存储

  • 用户 pod 在卷卸载请求期间冻结。

  • Trident API 不会处理 CloneVolume 期间出现的 Volume already exists 错误。

  • 由于存在不活跃的 LUN,卷无法附加。

  • 升级期间,由于无法找到 csi.trident.netapp.io 驱动程序,因此会发生 FailedMount 错误。

  • 在发生存储升级或存储控制器中断等事件后,文件/块存储会话不会自动恢复。

  • 由于回馈未完成,ONTAP 集群升级永远无法完成。

集群管理

  • 集群卡在删除状态。

数据库服务

  • gdcloud stop database 命令需要很长时间才能完成。

  • 如果 PostgreSQL 或 AlloyDB Omni 数据库集群在启用高可用性 (HA) 的情况下停止,则可能无法成功重启。

部署

与 GDC 气隙 1.15.1 GA 版本文件捆绑在一起的离线文档需要更新。如果您要按照离线文档部署版本,则必须单独下载并更新适用于您环境的最新 1.15.1 文档,并按照更新后的文档进行操作,以确保成功部署。如果您已更新文档,则无需执行此步骤。

防火墙

  • 部署 AttachmentGroup 后,如果该 AttachmentGroup 对象中的 identifier 字段与 orgName 相同,则防火墙无法解析该对象,并且防火墙配置更新会卡住。

Harbor

  • 数据库密码轮换卡住了。

硬件安全模块

  • 在 CipherTrust Manager 中仍可检测到已停用的试用许可,从而触发错误的过期警告。

  • 文件描述符泄漏会导致 ServicesNotStarted 错误。

基础设施即代码

  • 尝试使用 Firefox 登录 GitLab 时失败,并显示错误 422。

监控

  • 如果创建了新的 KubeStateMetric 自定义资源,则其指标可能不会显示。

  • Cortex 压缩失败可能是由损坏的块引起的,会导致各种问题,包括 Grafana 指标查询中的错误、记录规则中的缺口以及 Cortex pod 中显示的错误日志。

  • 由于卷节点亲和性冲突,Pod 卡滞在“待处理”状态。

  • 在 Grafana 中查看信息中心时,系统会显示“待处理的请求过多”错误消息。

操作系统

  • 如果配置了大量服务器,操作系统政策资源可能需要很长时间才能完成协调。

  • 在 OIC 工作站执行 gdcloud storage cpgdcloud system container-registry load-oci 操作期间,org-infra 的访问权限可能会丢失,随后 org-mgmtkube-api 会关闭。

  • 由于操作系统可轮替的密钥轮替失败,可能会触发 PLATAUTH 提醒。

工单系统

  • 客户网络中的 RBAC 错误可能会拒绝访问 ServiceNow。

升级

从 1.14.7 或更早版本升级到 1.15.x 时,为获得最佳效果,我们建议执行以下步骤:

  • 升级到版本 1.14.7。
  • 应用 hotfix2。
  • 继续升级到 1.15.1。

与 GDC 气隙 1.15.1 GA 版本文件捆绑在一起的离线文档需要更新。如果您正在按照离线文档进行升级,则必须单独下载并更新适用于您环境的最新 1.15.1 文档,并按照更新后的文档进行操作,以确保成功升级。如果您已更新文档,则无需执行此步骤。

Vertex AI

  • 停用 Translation API 可能会失败,并显示以下错误:Failed to disable translation API: VAI3002: Failed to patch subresource: failed to patch ODSPostgresDBCluster resource

  • 无法与 Jupyter 服务器建立连接。


修复了以下问题:

Anthos Service Mesh

  • 在大型网状网络中,可能会触发严重程度为“严重”和“错误”的误导性提醒,因为 controlplane_latency_slo 不会将网状网络大小纳入考虑范围。

备份和恢复

  • 备用控制平面 pod 因内存不足而崩溃。

存储

  • HA 组名称过长。

系统检测到以下更改:

版本更新