Google Cloud 上的 NVIDIA P100 GPU 将于 2026 年 9 月 15 日达到支持终止 (EOS) 期限。
我需要了解哪些信息
自 2026 年 9 月 15 日起,您将无法创建或访问任何运行 NVIDIA P100 GPU 的资源。此弃用会影响以下服务的资源: Google Cloud
- Compute Engine:虚拟机实例
- Google Kubernetes Engine (GKE):节点
- Gemini Enterprise Agent Platform:模型、作业和端点
- Cloud Workstations:工作站
- Dataflow:流水线作业
- Managed Service for Apache Spark:集群和无服务器批处理
- Deep Learning VM 和 Container-Optimized OS 实例
EOS 对现有资源有何影响
在 2026 年 9 月 15 日之前,运行 NVIDIA P100 GPU 的资源不会受到影响。不过,您的项目可能会面临风险,因为您运行的 GPU 型号已接近其支持终止 (EOS) 期限。 Google Cloud不支持 EOS 产品或功能。
我需要做什么
如需将工作负载迁移到受支持的 GPU,您必须选择新的 GPU 型号,查看其在您所在区域的可用性,然后迁移工作负载。
选择 GPU 型号
我们建议改用 NVIDIA T4 或 L4 GPU。如需确定最适合您的工作负载的 GPU 型号,请比较以下选项:
| 功能 | NVIDIA T4 | NVIDIA L4 |
|---|---|---|
| 适用场景 | 经济高效的推理、小型机器学习 (ML) 模型训练、数据分析和旧版工作负载。 | 高性能 AI 推理、生成式 AI、媒体流式传输和图形。L4 GPU 的性能是 T4 GPU 的四倍。 |
| 架构和内存 | Turing 架构,配备 16 GB GDDR6 GPU 内存。 | 采用 Ada Lovelace 架构,配备 24 GB GDDR6 GPU 内存。 |
| 机器系列 | N1 通用 | G2 加速器优化型 |
| 迁移路径 | 就地升级:修改现有虚拟机,以就地切换到 T4,而无需迁移数据。 | 新虚拟机迁移:迁移到新虚拟机,以过渡到 G2 机器系列。 |
如需查看所有 GPU 型号的完整列表和比较信息,请参阅 GPU 机器类型。
查看可使用此功能的地点
如需验证所选 GPU 型号是否可用,请查看服务的地理位置详细信息:
- Gemini Enterprise Agent Platform:查看 Gemini Enterprise Agent Platform 加速器位置。
- Cloud Workstations:查看按区域和可用区划分的 Cloud Workstations GPU 可用性。
- 对于所有其他服务:请查看可用的 GPU 区域和可用区。
迁移工作负载
根据您使用的服务,选择以下任一过渡方案:
Compute Engine 工作负载
根据您要切换到的机器类型和 GPU 型号,选择以下方法之一:
迁移到新虚拟机
如果新的 GPU 型号在现有虚拟机的可用区中不受支持,或者您要切换到在加速器优化机器类型上运行的 GPU,则必须迁移到新虚拟机。
如需迁移到新虚拟机,请完成以下步骤:
- 如果现有虚拟机使用包含要保留的数据的本地 SSD 磁盘,请将这些磁盘的内容移动到 Persistent Disk 卷。
创建新的虚拟机。例如,如需创建在 G2 (NVIDIA L4) 机器类型上运行的虚拟机,请参阅创建 G2 实例。
将永久性磁盘卷从旧虚拟机迁移到新虚拟机。为此,您可以将 Persistent Disk 卷与旧虚拟机分离,并将其添加到新虚拟机。或者,您也可以在虚拟机之间传输文件。
可选:将保存的数据从 Persistent Disk 卷移回本地 SSD 磁盘。
在虚拟机上安装 GPU 驱动程序。
在新虚拟机上安装应用。
删除旧虚拟机。
修改现有虚拟机
如果您要切换到的新 GPU 型号在同一可用区中受支持,并且在 N1 通用机器类型上运行,则可以修改现有虚拟机以从 NVIDIA P100 切换到新的 GPU 型号。
控制台
如需在控制台中修改 GPU 类型,请完成以下步骤:
- 验证您是否有足够的配额来使用新的 GPU 类型。
- 验证虚拟机上的所有关键应用是否都已停止。
在 Google Cloud 控制台中,转到虚拟机实例页面。
点击运行 NVIDIA P100 GPU 的虚拟机的名称。虚拟机实例详情页面随即打开。
点击 停止。 如果没有停止选项,请依次点击 更多操作 > 停止。在通知面板上查看虚拟机何时停止。
点击 编辑,然后完成以下步骤:
- 在机器配置部分,选择 GPU 机器家族。
- 从 GPU 类型列表中,将 GPU 型号从 NVIDIA P100 更改为新的 GPU 型号。
如需应用更改,请点击保存。
如需重启虚拟机,请点击启动/恢复。
gcloud
如需使用 Google Cloud CLI 修改 GPU 类型,请完成以下步骤:
- 验证您是否有足够的配额来使用新的 GPU 类型。
- 验证虚拟机上的所有关键应用是否都已停止。
将虚拟机配置导出到本地 YAML 文件:
gcloud compute instances export VM_NAME \ --destination=config.yaml \ --zone=ZONE
打开导出的
config.yaml文件,然后更新guestAccelerators块:guestAccelerators: - acceleratorCount: ACCELERATOR_COUNT acceleratorType: https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE
确保在
scheduling块下将scheduling.onHostMaintenance设置为TERMINATE:scheduling: automaticRestart: true onHostMaintenance: TERMINATE
停止虚拟机。
gcloud compute instances stop VM_NAME \ --zone=ZONE
使用
update-from-file命令应用修改后的配置。gcloud compute instances update-from-file VM_NAME \ --source=config.yaml \ --most-disruptive-allowed-action=RESTART \ --zone=ZONE
启动虚拟机。
gcloud compute instances start VM_NAME \ --zone=ZONE
请替换以下内容:
PROJECT_ID:您的项目 ID。VM_NAME:虚拟机实例的名称。ZONE:该虚拟机所在的可用区。ACCELERATOR_COUNT:要挂接的 GPU 数量。ACCELERATOR_TYPE:GPU 型号(例如nvidia-tesla-t4)。
REST
如需使用 Compute Engine API 修改 GPU 类型,请完成以下步骤:
- 验证您是否有足够的配额来使用新的 GPU 类型。
- 验证虚拟机上的所有关键应用是否都已停止。
停止虚拟机。
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
更新已停止虚拟机的调度选项,以在主机维护期间终止虚拟机。
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setScheduling { "onHostMaintenance": "TERMINATE", "automaticRestart": true }通过调用
setMachineResources添加或修改所连接的 GPU。POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineResources { "guestAccelerators": [ { "acceleratorCount": ACCELERATOR_COUNT, "acceleratorType": "https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE" } ] }启动虚拟机。
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
请替换以下内容:
PROJECT_ID:您的项目 ID。VM_NAME:虚拟机实例的名称。ZONE:该虚拟机所在的可用区。ACCELERATOR_COUNT:要挂接的 GPU 数量。ACCELERATOR_TYPE:GPU 型号(例如nvidia-tesla-t4)。
其他 Google Cloud 工作负载
如果您的工作负载在 Compute Engine 以外的服务(例如 GKE、Gemini Enterprise Agent Platform、Cloud Workstations、Dataflow 或 Managed Service for Apache Spark)上运行,则必须执行以下操作:
更新配置以引用受支持的 GPU 型号。
- 对于 GKE、Gemini Enterprise Agent Platform 或 Cloud Workstations,请更新您的配置模板。
- 对于 Dataflow,请更新流水线规范。
- 对于 Managed Service for Apache Spark,请更新集群定义。
如需了解如何为服务配置 GPU,请参阅相应服务的产品文档。
重启或重新创建资源。