NVIDIA P100 支持终止

Google Cloud 上的 NVIDIA P100 GPU 将于 2026 年 9 月 15 日达到支持终止 (EOS) 期限。

我需要了解哪些信息

自 2026 年 9 月 15 日起,您将无法创建或访问任何运行 NVIDIA P100 GPU 的资源。此弃用会影响以下服务的资源: Google Cloud

  • Compute Engine:虚拟机实例
  • Google Kubernetes Engine (GKE):节点
  • Gemini Enterprise Agent Platform:模型、作业和端点
  • Cloud Workstations:工作站
  • Dataflow:流水线作业
  • Managed Service for Apache Spark:集群和无服务器批处理
  • Deep Learning VM 和 Container-Optimized OS 实例

EOS 对现有资源有何影响

在 2026 年 9 月 15 日之前,运行 NVIDIA P100 GPU 的资源不会受到影响。不过,您的项目可能会面临风险,因为您运行的 GPU 型号已接近其支持终止 (EOS) 期限。 Google Cloud不支持 EOS 产品或功能。

我需要做什么

如需将工作负载迁移到受支持的 GPU,您必须选择新的 GPU 型号,查看其在您所在区域的可用性,然后迁移工作负载。

选择 GPU 型号

我们建议改用 NVIDIA T4 或 L4 GPU。如需确定最适合您的工作负载的 GPU 型号,请比较以下选项:

功能 NVIDIA T4 NVIDIA L4
适用场景 经济高效的推理、小型机器学习 (ML) 模型训练、数据分析和旧版工作负载。 高性能 AI 推理、生成式 AI、媒体流式传输和图形。L4 GPU 的性能是 T4 GPU 的四倍。
架构和内存 Turing 架构,配备 16 GB GDDR6 GPU 内存。 采用 Ada Lovelace 架构,配备 24 GB GDDR6 GPU 内存。
机器系列 N1 通用 G2 加速器优化型
迁移路径 就地升级修改现有虚拟机,以就地切换到 T4,而无需迁移数据。 新虚拟机迁移迁移到新虚拟机,以过渡到 G2 机器系列。

如需查看所有 GPU 型号的完整列表和比较信息,请参阅 GPU 机器类型

查看可使用此功能的地点

如需验证所选 GPU 型号是否可用,请查看服务的地理位置详细信息:

迁移工作负载

根据您使用的服务,选择以下任一过渡方案:

Compute Engine 工作负载

根据您要切换到的机器类型和 GPU 型号,选择以下方法之一

迁移到新虚拟机

如果新的 GPU 型号在现有虚拟机的可用区中不受支持,或者您要切换到在加速器优化机器类型上运行的 GPU,则必须迁移到新虚拟机。

如需迁移到新虚拟机,请完成以下步骤:

  1. 如果现有虚拟机使用包含要保留的数据的本地 SSD 磁盘,请将这些磁盘的内容移动到 Persistent Disk 卷。
  2. 创建新的虚拟机。例如,如需创建在 G2 (NVIDIA L4) 机器类型上运行的虚拟机,请参阅创建 G2 实例

  3. 将永久性磁盘卷从旧虚拟机迁移到新虚拟机。为此,您可以将 Persistent Disk 卷与旧虚拟机分离,并将其添加到新虚拟机。或者,您也可以在虚拟机之间传输文件

  4. 可选:将保存的数据从 Persistent Disk 卷移回本地 SSD 磁盘。

  5. 将与原始虚拟机关联的所有静态 IP 地址重新分配给新的虚拟机

  6. 在虚拟机上安装 GPU 驱动程序

  7. 在新虚拟机上安装应用。

  8. 删除旧虚拟机。

修改现有虚拟机

如果您要切换到的新 GPU 型号在同一可用区中受支持,并且在 N1 通用机器类型上运行,则可以修改现有虚拟机以从 NVIDIA P100 切换到新的 GPU 型号。

控制台

如需在控制台中修改 GPU 类型,请完成以下步骤:

  1. 验证您是否有足够的配额来使用新的 GPU 类型。
  2. 验证虚拟机上的所有关键应用是否都已停止。
  3. 在 Google Cloud 控制台中,转到虚拟机实例页面。

    转到虚拟机实例

  4. 点击运行 NVIDIA P100 GPU 的虚拟机的名称。虚拟机实例详情页面随即打开。

  5. 点击 停止。 如果没有停止选项,请依次点击 更多操作 > 停止。在通知面板上查看虚拟机何时停止。

  6. 点击 编辑,然后完成以下步骤:

    1. 机器配置部分,选择 GPU 机器家族。
    2. GPU 类型列表中,将 GPU 型号从 NVIDIA P100 更改为新的 GPU 型号。
  7. 如需应用更改,请点击保存

  8. 如需重启虚拟机,请点击启动/恢复

gcloud

如需使用 Google Cloud CLI 修改 GPU 类型,请完成以下步骤:

  1. 验证您是否有足够的配额来使用新的 GPU 类型。
  2. 验证虚拟机上的所有关键应用是否都已停止。
  3. 将虚拟机配置导出到本地 YAML 文件:

    gcloud compute instances export VM_NAME \
       --destination=config.yaml \
       --zone=ZONE
    
  4. 打开导出的 config.yaml 文件,然后更新 guestAccelerators 块:

    guestAccelerators:
    - acceleratorCount: ACCELERATOR_COUNT
     acceleratorType: https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE

    确保在 scheduling 块下将 scheduling.onHostMaintenance 设置为 TERMINATE

    scheduling:
     automaticRestart: true
     onHostMaintenance: TERMINATE
  5. 停止虚拟机。

    gcloud compute instances stop VM_NAME \
       --zone=ZONE
    
  6. 使用 update-from-file 命令应用修改后的配置。

    gcloud compute instances update-from-file VM_NAME \
       --source=config.yaml \
       --most-disruptive-allowed-action=RESTART \
       --zone=ZONE
    
  7. 启动虚拟机。

    gcloud compute instances start VM_NAME \
       --zone=ZONE
    

请替换以下内容:

  • PROJECT_ID:您的项目 ID。
  • VM_NAME:虚拟机实例的名称。
  • ZONE:该虚拟机所在的可用区。
  • ACCELERATOR_COUNT:要挂接的 GPU 数量。
  • ACCELERATOR_TYPE:GPU 型号(例如 nvidia-tesla-t4)。

REST

如需使用 Compute Engine API 修改 GPU 类型,请完成以下步骤:

  1. 验证您是否有足够的配额来使用新的 GPU 类型。
  2. 验证虚拟机上的所有关键应用是否都已停止。
  3. 停止虚拟机。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
    
  4. 更新已停止虚拟机的调度选项,以在主机维护期间终止虚拟机。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setScheduling
    
    {
     "onHostMaintenance": "TERMINATE",
     "automaticRestart": true
    }
    
  5. 通过调用 setMachineResources 添加或修改所连接的 GPU。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineResources
    
    {
     "guestAccelerators": [
       {
         "acceleratorCount": ACCELERATOR_COUNT,
         "acceleratorType": "https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE"
       }
     ]
    }
    
  6. 启动虚拟机。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
    

    请替换以下内容:

    • PROJECT_ID:您的项目 ID。
    • VM_NAME:虚拟机实例的名称。
    • ZONE:该虚拟机所在的可用区。
    • ACCELERATOR_COUNT:要挂接的 GPU 数量。
    • ACCELERATOR_TYPE:GPU 型号(例如 nvidia-tesla-t4)。

其他 Google Cloud 工作负载

如果您的工作负载在 Compute Engine 以外的服务(例如 GKE、Gemini Enterprise Agent Platform、Cloud Workstations、Dataflow 或 Managed Service for Apache Spark)上运行,则必须执行以下操作:

  1. 更新配置以引用受支持的 GPU 型号。

    • 对于 GKE、Gemini Enterprise Agent Platform 或 Cloud Workstations,请更新您的配置模板。
    • 对于 Dataflow,请更新流水线规范。
    • 对于 Managed Service for Apache Spark,请更新集群定义。

    如需了解如何为服务配置 GPU,请参阅相应服务的产品文档。

  2. 重启或重新创建资源。

后续步骤