可用的 GPU

GPU 用于加快工作负载速度，并且 Cloud Workstations 支持将 GPU 附加到工作站。Cloud Workstations 支持许多可附加到 Compute Engine 虚拟机的各种 GPU 型号。要挂接到每个工作站的 GPU 型号和数量在工作站配置中指定。Cloud Workstations 会处理 GPU 的连接和设备驱动程序的安装。

将 GPU 附加到工作站会影响费用，如 Cloud Workstations 价格概览中所述。

限制

工作站配置可以指定 GPU，但需遵守以下限制：

Cloud Workstations 仅支持为指定了 N1 机器系列、A2 机器系列或 A3 机器系列中的机器类型的配置使用 GPU。如需了解详情，请参阅支持的 GPU 型号。
配置必须指定所选 GPU 型号可用的副本可用区。
无法将工作站配置为一次连接多个型号的 GPU。
指定 A2 Ultra 机器类型的配置不得指定永久性存储空间。如果需要永久性文件存储空间，请考虑使用基于 NFS 的解决方案，例如 Filestore 或 Cloud Storage FUSE。请注意，A2 标准机器类型支持永久性存储空间。如需创建没有永久性存储空间的配置，请使用以下 Google Cloud CLI 命令：
```
  gcloud workstations configs create CONFIG_NAME \
    --project=PROJECT_ID \
    --cluster=CLUSTER_NAME \
    --region=LOCATION \
    --machine-type=A2_MACHINE_TYPE \
    --no-persistent-storage
```
替换以下内容：
- PROJECT_ID：包含工作站配置的项目的 ID。
- LOCATION：工作站集群的区域。
- CLUSTER_NAME：包含工作站配置的工作站集群的名称。
- CONFIG_NAME：工作站配置的名称。
- A2_MACHINE_TYPE：A2 机器的类型。
指定 A3 机器类型的配置仅支持 Hyperdisk 持久卷。
仅以下机器系列支持使用 Google Cloud Hyperdisk 磁盘类型：
- A3
- C3
- C4
- G4
- M3
- N4
- N4D
- Z3

支持的 GPU 型号

Cloud Workstations 支持 Compute Engine 提供的许多 GPU 型号。支持的型号取决于为工作站配置选择的机器系列，如下表所示。

N1 机器系列

N1 通用机器系列支持多种 GPU 型号，指定了任何 N1 机器类型的工作站配置也可以指定以下 GPU 型号之一。对于所选的 GPU 型号，配置可能会指定要附加到每个工作站的 GPU 卡数量。

GPU 模型	GPU 数量
NVIDIA T4 (`nvidia-tesla-t4`)	1 个、2 个或 4 个 GPU
NVIDIA P4 (`nvidia-tesla-p4`)	1 个、2 个或 4 个 GPU
NVIDIA V100 (`nvidia-tesla-v100`)	1、2、4 或 8 个 GPU
NVIDIA P100 (`nvidia-tesla-p100`)	1 个、2 个或 4 个 GPU

A2 机器系列

A2 标准加速器优化机器系列挂接了固定数量的 NVIDIA A100 GPU，具体数量仅取决于所选的机器类型。

下表显示了从机器类型到将附加的卡数量的映射。

GPU 模型	机器类型	GPU 数量
NVIDIA A100 40GB (`nvidia-tesla-a100`)	`a2-highgpu-1g`	1 个 GPU
	`a2-highgpu-2g`	2 个 GPU
	`a2-highgpu-4g`	4 个 GPU
	`a2-highgpu-8g`	8 个 GPU
	`a2-megagpu-16g`	16 个 GPU

Cloud Workstations 不支持 A2 Ultra 机器类型。

A3 机器系列

A3 Mega 和 A3 High 加速器优化型机器系列挂接了固定数量的 NVIDIA H100 GPU，具体数量仅取决于所选的机器类型。

下表显示了从机器类型到将附加的卡数量的映射。

GPU 模型	机器类型	GPU 数量
NVIDIA H100 80GB (`nvidia-tesla-h100`)	`a3-highgpu-8g`	8 个 GPU
NVIDIA H100 80GB (`nvidia-tesla-h100`)	`a3-megagpu-8g`	8 个 GPU

Google Cloud Hyperdisk 支持

某些 GPU 工作负载需要极高的磁盘吞吐量。为了满足此使用情形，Cloud Workstations 允许使用 Google Cloud Hyperdisk Balanced High Availability 磁盘作为上述机器类型的持久性目录。

您可以通过控制台和 gcloud CLI 配置 Hyperdisk 存储空间。创建工作站配置后，无法更改磁盘类型。

将 Hyperdisk 挂接到工作站会影响费用，如 Google Cloud Hyperdisk 价格中所述。

向现有工作站配置添加 GPU

如需向工作站配置添加 GPU，请完成以下任一标签页中的步骤。

准备工作

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

安装 Google Cloud CLI。安装完成后，运行以下命令来初始化 Google Cloud CLI：

gcloud init

如果您使用的是外部身份提供方 (IdP)，则必须先使用联合身份登录 gcloud CLI。

查看 Cloud Workstations 价格概览，了解配置 GPU 会对费用产生哪些影响。请注意，GPU 会挂接到配置的快速启动池大小所指定的预启动虚拟机 (VM)。

更新现有配置

控制台

如需通过Google Cloud 控制台在现有工作站配置中配置 GPU，请执行以下操作：

在 Google Cloud 控制台中，前往工作站配置页面。

前往工作站配置
在工作站配置列表中，点击要向其添加 GPU 的配置的名称。
在工作站配置详情页面上，依次点击修改修改。
在修改工作站配置页面上，点击导航菜单中的机器设置。
点击切换开关，选择 GPU 而不是通用机器家族。

在 GPU 类型字段中，选择要使用的 GPU 型号。

在 GPU 数量字段中，选择要附加到每个工作站的 GPU 卡数量。

在机器类型字段中，选择要使用的机器类型。

注意：每个字段的选项因配置所选的副本可用区以及这些可用区中的 GPU 和机器类型可用性而异。如果您无法在相应配置的副本可用区中找到合适的 GPU，不妨考虑创建包含 GPU 的新配置。
点击保存以更新配置。

gcloud

运行 gcloud workstations configs update 命令，在现有工作站配置中配置 GPU。

不过，首先请收集一些信息，了解哪些 GPU 型号可用，并为您的配置选择一个型号：

运行以下 gcloud CLI 命令，查看配置指定了哪些副本区域：
```
gcloud workstations configs describe \
  --format="table(name.scope(workstationConfigs),replicaZones.list())" \
  --project=PROJECT_ID \
  --region=LOCATION \
  --cluster=CLUSTER_NAME \
  CONFIG_NAME
```
替换以下内容：
- PROJECT_ID：包含工作站配置的项目的 ID。
- LOCATION：工作站集群的位置。
- CLUSTER_NAME：包含工作站配置的工作站集群的名称。
- CONFIG_NAME：工作站配置的名称。
运行 gcloud compute accelerator-types list 命令，选择在配置的两个副本可用区中均可用的受支持 GPU 型号：
```
gcloud compute accelerator-types list \
  --format="table(name:sort=1,zone,description,maximumCardsPerInstance)" \
  --filter='zone.basename()=(ZONES) AND name~"nvidia-tesla-(a100|p100|p4|t4|v100)$"' \
  --project=PROJECT_ID
```
将 ZONES 替换为在上一步中确定的副本可用区列表（以英文逗号分隔），例如 us-central1-a,us-central1-c。

选择表中列出两次的 GPU 型号，表示该型号在两个副本可用区中均可用。

记下所选 GPU 型号可挂接的显卡数量上限。

注意：如果此配置的副本可用区中没有合适的 GPU 可用性，您可以选择创建包含 GPU 的新配置。
使用 gcloud compute machine-types list 命令确定哪些受支持的机器类型在配置的两个副本可用区中均可用。
1. 如果您在上一步中选择了 NVIDIA A100 40GB GPU 型号，则您的配置必须使用 A2 机器系列：
```
gcloud compute machine-types list \
  --format="table(name,zone,guestCpus:sort=1)" \
  --filter="name:a2-highgpu- OR name:a2-megagpu-" \
  --zones=ZONES \
  --project=PROJECT_ID
```
2. 如果您在上一步中选择了任何其他 GPU 型号，则您的配置必须使用 N1 机器系列：
```
gcloud compute machine-types list \
  --format="table(name,zone,guestCpus:sort=1)" \
  --filter="name:n1-standard-" \
  --zones=ZONES \
  --project=PROJECT_ID
```
选择表中列出两次的机器类型，表示该类型在两个副本可用区中均可用。
现在，您已选择 GPU 型号和兼容的机器类型，请更新配置：
1. 对于 NVIDIA A100 40GB GPU，请运行以下命令来更新配置：
```
gcloud beta workstations configs update \
  --project=PROJECT_ID \
  --region=LOCATION \
  --cluster=CLUSTER_NAME \
  CONFIG_NAME \
  --machine-type=A2_MACHINE_TYPE
```
  将 A2_MACHINE_TYPE 替换为您在上一步中确定的所选 A2 机器类型（例如 a2-highgpu-1g）。
  
  注意：对于 A2 机器系列，GPU 的型号和数量是根据机器类型固定的，因此您可以省略 --accelerator-type 和 --accelerator-count 标志。
2. 对于所有其他 GPU 型号，请运行以下命令：
```
gcloud beta workstations configs update \
  --project=PROJECT_ID \
  --region=LOCATION \
  --cluster=CLUSTER_NAME \
  CONFIG_NAME \
  --machine-type=N1_MACHINE_TYPE \
  --accelerator-type=ACCELERATOR_TYPE \
  --accelerator-count=ACCELERATOR_COUNT
```
  替换以下内容：
  - N1_MACHINE_TYPE：所选的 N1 系列机器类型（例如 n1-standard-2）。
  - ACCELERATOR_TYPE：所选 GPU 模型的名称（例如 nvidia-tesla-t4）。
  - ACCELERATOR_COUNT：要挂接到每个工作站的 GPU 数量（例如 1、2、4）。必须是小于 GPU 型号最大数量的 2 的幂。

警告：创建工作站配置后，无法切换到 Hyperdisk。

创建具有 GPU 的新工作站配置

如需创建新的工作站配置，以便将 GPU 附加到基于该配置的工作站，请完成以下任一标签页中的步骤。

准备工作

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

安装 Google Cloud CLI。安装完成后，运行以下命令来初始化 Google Cloud CLI：

gcloud init

如果您使用的是外部身份提供方 (IdP)，则必须先使用联合身份登录 gcloud CLI。

REST

如需在本地开发环境中使用本页面上的 REST API 示例，请使用您提供给 gcloud CLI 的凭证。

安装 Google Cloud CLI。安装完成后，运行以下命令来初始化 Google Cloud CLI：

gcloud init

如果您使用的是外部身份提供方 (IdP)，则必须先使用联合身份登录 gcloud CLI。

如需了解详情，请参阅 Google Cloud 身份验证文档中的使用 REST 时进行身份验证。

选择 GPU 型号，然后查阅 GPU 可用性表格，选择一个区域，该区域至少有两个可用区提供所选的 GPU 型号。

如果您在所选区域中还没有可用于创建新配置的集群，请按照相关步骤在该区域中创建工作站集群。

查看 Cloud Workstations 价格概览，了解配置 GPU 会对费用产生哪些影响。请注意，GPU 会挂接到配置的快速启动池大小所指定的预启动虚拟机 (VM)。

创建新配置

控制台

通过Google Cloud 控制台创建具有 GPU 的新工作站配置，方法如下：

在 Google Cloud 控制台中，前往工作站配置页面。

前往工作站配置
在工作站配置页面上，依次点击 add_box 创建。
在创建工作站配置页面的基本信息步骤中，在名称字段中指定配置的名称。

在工作站集群字段中，选择所选区域中的一个集群。

提示： GPU 也挂接到快速启动工作站。您可以选择已停用，以降低费用。

点击继续以进入机器设置步骤。
在创建工作站配置页面的机器设置步骤中，首先点击切换开关，选择 GPU 而不是通用机器家族。
1. 然后，在 可用区 字段中，选中您所选 GPU 型号可用的两个可用区旁边的复选框（请参阅 GPU 可用性表格）。
2. 在 GPU 类型字段中，选择要使用的 GPU 型号。
3. 在 GPU 数量字段中，选择要附加到每个工作站的 GPU 卡数量。
4. 在机器类型字段中，选择兼容的机器类型。
可选：界面尚不支持此功能。请参阅 gcloud 说明，了解如何使用 CLI 配置此功能。
点击继续以配置环境设置和 Identity and Access Management (IAM) 政策，然后点击创建以预配新的工作站配置。

gcloud

使用 gcloud CLI 运行 gcloud workstations configs create 命令，创建具有 GPU 的新工作站配置。

对于 NVIDIA A100 40GB GPU，请运行以下命令来创建配置：
```
gcloud beta workstations configs create \
  --project=PROJECT_ID \
  --region=LOCATION \
  --cluster=CLUSTER_NAME \
  CONFIG_NAME \
  --replica-zones=REPLICA_ZONES \
  --machine-type=A2_MACHINE_TYPE
```
替换以下内容：
- PROJECT_ID：将包含新工作站配置的项目的 ID。
- LOCATION：工作站集群的位置，配置将包含在该集群中。
- CLUSTER_NAME：将包含新工作站配置的工作站集群的名称。
- CONFIG_NAME：新工作站配置的名称。
- REPLICA_ZONES：集群所在区域内提供所选 GPU 型号的两个可用区（例如 us-central1-a,us-central1-c）。
- A2_MACHINE_TYPE：所选的 A2 系列机器类型（例如 a2-highgpu-1g）。
注意：对于 A2 机器系列，GPU 的型号和数量是根据机器类型固定的，因此您可以省略 --accelerator-type 和 --accelerator-count 标志。
对于所有其他 GPU 型号，请运行以下命令来创建配置：
```
gcloud beta workstations configs create \
  --project=PROJECT_ID \
  --region=LOCATION \
  --cluster=CLUSTER_NAME \
  CONFIG_NAME \
  --replica-zones=REPLICA_ZONES \
  --machine-type=N1_MACHINE_TYPE \
  --accelerator-type=ACCELERATOR_TYPE \
  --accelerator-count=ACCELERATOR_COUNT
```
替换以下内容：
- PROJECT_ID：将包含新工作站配置的项目的 ID。
- LOCATION：工作站集群的位置，配置将包含在该集群中。
- CLUSTER_NAME：将包含新工作站配置的工作站集群的名称。
- CONFIG_NAME：新工作站配置的名称。
- REPLICA_ZONES：集群所在区域内提供所选 GPU 型号的两个可用区（例如 us-central1-a,us-central1-c）。
- N1_MACHINE_TYPE：所选的 N1 系列机器类型（例如 n1-standard-2）。
- ACCELERATOR_TYPE：所选 GPU 模型的名称（例如 nvidia-tesla-t4）。
- ACCELERATOR_COUNT：要挂接到每个工作站的 GPU 数量（例如 1、2、4）。
可选：如需使用 Hyperdisk，请添加标志 --disk-type=hyperdisk-balanced-ha。例如：
```
gcloud beta workstations configs create \
  ... \
  --disk-type=hyperdisk-balanced-ha \
  --disk-size=200
```
此命令将创建一个大小为 200 GB 的 Hyperdisk。创建工作站配置后，磁盘类型便无法更改。

NVIDIA GPU 设备驱动程序

Cloud Workstations 会在虚拟机启动期间将 NVIDIA 设备驱动程序安装在工作站的主机虚拟机上。

如需确定工作站上已安装的设备驱动程序版本，请运行以下命令：

nvidia-smi --query-gpu=name,driver_version --format=csv

按区域和可用区划分的 GPU 可用性

您可以按位置或 GPU 模型搜索，也可以同时使用两者。

可用区	位置	GPU 平台
`asia-east1-a`	台湾	P100、T4
`asia-east1-b`	台湾
`asia-east1-c`	台湾	H100、P100、T4、V100
`asia-east2-a`	香港	T4
`asia-east2-b`	香港
`asia-east2-c`	香港	T4
`asia-northeast1-a`	东京	A100 40GB、T4
`asia-northeast1-b`	东京	H100
`asia-northeast1-c`	东京	A100 40GB、T4
`asia-northeast3-a`	首尔	A100 40GB、H100
`asia-northeast3-b`	首尔	A100 40GB、T4
`asia-northeast3-c`	首尔	H100、T4
`asia-south1-a` `asia-south1-b`	孟买	T4
`asia-south1-c`	孟买	H100
`asia-southeast1-a`	新加坡	T4
`asia-southeast1-b` `asia-southeast1-c`	新加坡	A100 40GB、H100、P4、T4
`australia-southeast1-a`	悉尼	P4、T4
`australia-southeast1-b`	悉尼	P100、P4
`australia-southeast1-c`	悉尼	H100、T4
`australia-southeast2-a` `australia-southeast2-b` `australia-southeast2-c`	墨尔本
`europe-central2-a`	华沙
`europe-central2-b` `europe-central2-c`	华沙	T4
`europe-north1-a` `europe-north1-b`	芬兰
`europe-north1-c`	芬兰	H100
`europe-southwest1-a` `europe-southwest1-b` `europe-southwest1-c`	马德里
`europe-west1-b`	比利时	H100、P100、T4
`europe-west1-c`	比利时	H100、T4
`europe-west1-d`	比利时	P100、T4
`europe-west12-a` `europe-west12-b`	都灵
`europe-west2-a`	伦敦	T4
`europe-west2-b`	伦敦	H100、T4
`europe-west2-c`	伦敦
`europe-west3-a`	法兰克福	H100
`europe-west3-b`	法兰克福	T4
`europe-west3-c`	法兰克福	H100
`europe-west4-a`	荷兰	A100 40GB、P100、T4、V100
`europe-west4-b`	荷兰	A100 40GB、H100、P4、T4、V100
`europe-west4-c`	荷兰	H100、P4、T4、V100
`europe-west6-a` `europe-west6-b` `europe-west6-c`	苏黎世
`europe-west8-a` `europe-west8-b`	米兰
`europe-west8-c`	米兰	H100
`europe-west9-a` `europe-west9-b`	巴黎
`europe-west9-c`	巴黎	H100
`me-central2-a` `me-central2-b` `me-central2-c`	达曼
`me-west1-a`	特拉维夫	A100 40GB
`me-west1-b`	特拉维夫	T4
`me-west1-c`	特拉维夫	A100 40GB、T4
`northamerica-northeast1-a` `northamerica-northeast1-b`	蒙特利尔	P4
`northamerica-northeast1-c`	蒙特利尔	P4、T4
`southamerica-east1-a`	圣保罗	T4
`southamerica-east1-b`	圣保罗
`southamerica-east1-c`	圣保罗	T4
`southamerica-west1-a` `southamerica-west1-b` `southamerica-west1-c`	圣地亚哥
`us-central1-a`	爱荷华	A100 40GB、H100、P4、T4、V100
`us-central1-b`	爱荷华	A100 40GB、H100、T4、V100
`us-central1-c`	爱荷华	A100 40GB、H100、P100、P4、T4、V100
`us-central1-f`	爱荷华	A100 40GB、P100、T4、V100
`us-east1-b`	南卡罗来纳	A100 40GB、P100
`us-east1-c`	南卡罗来纳	P100、T4、V100
`us-east1-d`	南卡罗来纳	T4
`us-east4-a` `us-east4-b` `us-east4-c`	北弗吉尼亚	H100、P4、T4
`us-east5-a`	哥伦布	H100
`us-east5-b` `us-east5-c`	哥伦布
`us-west1-a`	俄勒冈	H100、P100、T4、V100
`us-west1-b`	俄勒冈	A100 40GB、H100、P100、T4、V100
`us-west1-c`	俄勒冈
`us-west4-a`	拉斯维加斯	H100、T4
`us-west4-b`	拉斯维加斯	A100 40GB、T4
`us-west4-c`	拉斯维加斯

可用的 GPU 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

限制

支持的 GPU 型号

N1 机器系列

A2 机器系列

A3 机器系列

Google Cloud Hyperdisk 支持

向现有工作站配置添加 GPU

准备工作

Console

gcloud

更新现有配置

控制台

gcloud

创建具有 GPU 的新工作站配置

准备工作

Console

gcloud

REST

创建新配置

控制台

gcloud

NVIDIA GPU 设备驱动程序

按区域和可用区划分的 GPU 可用性

后续步骤

可用的 GPU