规划 Cloud TPU 资源
本页介绍了如何规划张量处理单元 (TPU) 用量。
选择使用选项
使用选项是指获取和使用计算资源的方式。您可以根据对速度、时长、费用和抢占容忍度的需求来请求 Cloud TPU 虚拟机容量。选项包括:
- 按需:标准随用随付实例。
- Spot 虚拟机:价格更低、可抢占的实例。使用抢占式配额。
- 灵活启动虚拟机:根据需要预留容量,最长可预留 7 天,无需长期预留或复杂的配额管理。
- 预留:预留特定时长(最长 90 天或 1 年以上)的容量,保证可用性。使用按需配额。
对于 TPU v6e 及更高世代,您还可以将 GKE 与 TPU Cluster Director 搭配使用。此功能可通过全容量模式预留使用。它可让您完全访问预留的容量,并全面了解 TPU 的硬件布局、使用情况和健康状况。如需了解详情,请参阅全容量模式概览。
下表从工作方式、理想使用情形、支持的 TPU 版本和可用区以及所需的配额类型等方面比较了 TPU 消费选项。
| 使用选项 | 工作原理 | 最佳用途 | 支持的 TPU 版本和可用区 | Cloud TPU API 的配额类型 |
|---|---|---|---|---|
| 一年或更长时间的未来预留 |
您提前请求一年或更长时间的 TPU 资源。在该时间段内,这些资源会预留供您专门使用。 预留可极高地保障容量,价格低于按需资源。 未来的 TPU 预留包含承诺使用折扣 (CUD)。购买承诺使用合约后,CUD 可提供折扣价格。如需了解详情,请参阅 一年或更长时间的未来预留 |
一年或更长时间的未来预留非常适合长时间运行的训练作业和推理工作负载。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 按需配额 |
| 最长 90 天的未来预留(日历模式)(预览版) |
您可以针对特定开始时间和时长(介于 1 到 90 天之间)请求 TPU 资源。在该时间段内,这些资源会预留供您专门使用。如需了解详情,请参阅最长 90 天的未来预留(日历模式) 预留可极高地保障容量,价格低于按需资源。 |
日历模式下的未来预留非常适合需要精确开始时间且具有明确时长的训练和实验工作负载。 |
用于训练和服务的 TPU7x (Ironwood)(预览版):us-central1-c 用于训练和服务的 v6e (Trillium):asia-northeast1-b、us-east5-a 用于训练和服务的 v5p:us-east5-a 用于训练的 v5e:us-west4-a 用于服务的 v5e:us-central1-a |
无需配额 |
| 按需 |
您请求的 TPU 资源可立即使用,并且可使用多长时间由您决定。 按需方案可提供极大的灵活性。按需资源不会被抢占,但无法保证有足够的可用 TPU 资源来满足您的请求。创建 TPU 资源时,按需是默认选项。如需详细了解如何创建和使用按需 TPU,请参阅创建 TPU 虚拟机。 |
按需非常适合需要灵活结束时间的紧急作业和工作负载。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 按需配额 |
| 灵活启动(预览版) |
您可以针对特定时长(最长 7 天)请求 TPU 资源,而无需提前预留容量。 TPU 灵活启动虚拟机来自专用容量池,因此这些资源的可用性高于按需。如需了解详情,请参阅请求 TPU 灵活启动虚拟机。 如需详细了解如何将 TPU 灵活启动虚拟机与 Google Kubernetes Engine (GKE) 搭配使用,请参阅 关于使用灵活启动预配模式进行 GPU 和 TPU 预配。 |
灵活启动非常适合实验、小规模测试、为推理工作负载动态预配 TPU、模型微调以及运行时间不到 7 天的工作负载。 |
TPU7x (Ironwood)(预览版):us-central1-c(仅使用 GKE) v6e (Trillium):asia-northeast1-b、us-east5-a v5p:us-east5-a v5e:us-west4-a |
可抢占配额 |
| Spot |
您请求的 TPU 资源可能会被抢占。 Spot 虚拟机的价格远低于按需资源。与按需资源相比,Spot 虚拟机通常更容易获得,但可能随时被抢占(关停)。运行时长没有限制。如需详细了解 TPU Spot 虚拟机,请参阅 管理 TPU Spot 虚拟机。 |
Spot 非常适合调度优先级较低的工作负载,例如模型预训练、模型微调,以及对可用性中断具有容忍性的模拟作业。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 可抢占配额 |
申请 TPU 配额
无论采用哪种使用选项,您都需要为 Cloud TPU 核心或芯片设置按需配额或可抢占配额,才能使用 TPU 虚拟机。确保您有足够的配额来支持所选的选项、TPU 版本、大小和可用区。配额针对每个 TPU 版本而定,并且按需使用与抢占式使用的配额有所不同。部分 TPU 版本具有默认配额;对于其他版本,您必须申请配额。如需了解详情,请参阅 Cloud TPU 配额。
如果您将 TPU 与 Google Kubernetes Engine (GKE) 搭配使用,则需要 Compute Engine API 配额,而不是标准 TPU API 配额。如需详细了解 GKE 中的 TPU 配额,请参阅确保您有 TPU 配额。
选择 TPU 版本
根据模型的训练或推理需求选择 TPU 版本,例如 v5e、v5p、v6e 或 TPU7x (Ironwood)。如需了解详情,请参阅 TPU 版本。
后续步骤
- 了解如何创建 TPU 虚拟机
- 了解如何管理 TPU