Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

规划 Cloud TPU 资源

本页面介绍了如何规划张量处理单元 (TPU) 用量。

选择使用选项

使用选项是指获取和使用计算资源的方式。您可以根据对速度、时长、费用和抢占容忍度的需求请求 Cloud TPU 虚拟机容量。选项包括：

按需：标准随用随付实例。
Spot 虚拟机：价格较低的可抢占实例。使用可抢占配额。
灵活启动虚拟机：根据需要预留容量（最多 7 天），无需长期预留或复杂的配额管理。
预留：预留特定时长的容量（最长 90 天或 1 年以上），保证可用性。使用按需配额。

对于 TPU v6e 及更高版本，您还可以将 GKE 与 TPU Cluster Director 搭配使用。此功能通过“所有容量”模式预留提供。它可让您完全访问预留容量，并全面了解 TPU 的硬件布局、使用情况和健康状况。如需了解详情，请参阅全容量模式概览。

下表根据 TPU 使用选项的工作原理、理想用例、支持的 TPU 版本和可用区以及所需的配额类型对它们进行了比较。

使用选项	工作原理	最佳用途	支持的 TPU 版本和可用区	Cloud TPU API 的配额类型
一年或更长时间的未来预留	您可以提前一年或更长时间请求 TPU 资源。这些资源将在该时间段内预留供您独占使用。预留可极高地保障容量，价格低于按需资源。未来 TPU 预留包含承诺使用折扣 (CUD) 购买承诺使用合约时，CUD 可提供折扣价格。如需了解详情，请参阅一年或更长时间的未来预留	一年或更长时间的未来预留非常适合长时间运行的训练作业和推理工作负载。	所有 TPU 版本：请参阅 TPU 区域和可用区	按需配额
最长 90 天的未来预留（日历模式）	您可以请求在特定开始时间和时长（1 到 90 天之间）内使用 TPU 资源。这些资源将在该时间段内预留供您独占使用。如需了解详情，请参阅最长 90 天的未来预留（日历模式）预留可极高地保障容量，价格低于按需资源。	日历模式下的未来预留非常适合需要精确开始时间且具有明确时长的训练和实验工作负载。	用于训练和服务的 TPU7x (Ironwood)：us-central1-c 用于训练和服务的 v6e (Trillium)：asia-northeast1-b、us-east5-a 用于训练和服务的 v5p：us-east5-a 用于训练的 v5e：us-west4-a 用于服务的 v5e：us-central1-a	无需配额
按需	您可以请求立即使用 TPU 资源，使用时长不限。按需具有很高的灵活性。按需资源不会被抢占，但不能保证有足够的可用 TPU 资源来满足您的请求。创建 TPU 资源时，按需是默认选项。如需详细了解如何创建和使用按需 TPU，请参阅创建 TPU 虚拟机。	按需非常适合需要灵活结束时间的紧急作业和工作负载。	所有 TPU 版本：请参阅 TPU 区域和可用区	按需配额
灵活启动（预览版）	您可以请求在特定时长（最长 7 天）内使用 TPU 资源，无需提前预留容量。 TPU 灵活启动虚拟机来自专用容量池，因此这些资源的可用性高于按需。如需了解详情，请参阅请求 TPU 灵活启动虚拟机。如需详细了解如何将 TPU 灵活启动虚拟机与 Google Kubernetes Engine (GKE) 搭配使用，请参阅关于使用灵活启动预配模式进行 GPU 和 TPU 预配。	灵活启动非常适合实验、小规模测试、动态预配 TPU 以用于推理工作负载、模型微调，以及运行时间不到 7 天的工作负载。	TPU7x (Ironwood)：us-central1-c（仅使用 GKE） v6e (Trillium)：asia-northeast1-b、us-east5-a v5p：us-east5-a v5e：us-west4-a	可抢占配额
Spot	您可以请求可被抢占的 TPU 资源。 Spot 虚拟机的价格比按需资源低得多。与按需资源相比，Spot 虚拟机通常更容易获取，但可能随时被抢占（关停）。运行时长没有限制。如需详细了解 TPU Spot 虚拟机，请参阅管理 TPU Spot 虚拟机。	Spot 非常适合调度优先级较低的工作负载，例如模型预训练、模型微调，以及对可用性中断具有容忍性的模拟作业。	所有 TPU 版本：请参阅 TPU 区域和可用区	可抢占配额

请求 TPU 配额

如需使用 TPU 虚拟机，无论选择哪种使用选项，您都需要为 Cloud TPU 核心或芯片设置按需配额或可抢占配额。请确保您有足够的配额来满足所选选项、TPU 版本、大小和可用区的需求。配额特定于每个 TPU 版本，并且按需使用与可抢占式使用配额不同。某些 TPU 版本具有默认配额；对于其他版本，您必须请求配额。如需了解更多信息，请参阅 Cloud TPU 配额。

如果您将 TPU 与 Google Kubernetes Engine (GKE) 搭配使用，则需要 Compute Engine API 配额，而不是标准 TPU API 配额。如需详细了解 GKE 中的 TPU 配额，请参阅确保您有 TPU 配额。

选择 TPU 版本

根据模型的训练或推理需求，选择 TPU 版本，例如 v5e、v5p、v6e 或 TPU7x (Ironwood)。如需了解详情，请参阅 TPU 版本。

后续步骤

了解如何创建 TPU 虚拟机
了解如何管理 TPU