Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

规划 Cloud TPU 资源

本页介绍了如何规划张量处理单元 (TPU) 用量。

选择使用选项

使用选项是指获取和使用计算资源的方式。您可以根据对速度、时长、费用和抢占容忍度的需求来请求 Cloud TPU 虚拟机容量。选项包括：

按需：标准随用随付实例。
Spot 虚拟机：价格较低的抢占式实例。使用抢占式配额。
灵活启动虚拟机：根据需要预留容量，最长可预留 7 天，无需长期预留或复杂的配额管理。
预留：预留特定时长（最长 90 天或 1 年以上）的容量，保证可用性。使用按需配额。

下表从工作方式、理想使用情形以及支持的 TPU 版本和可用区等方面比较了各种 TPU 使用方案。

使用选项	工作原理	最佳用途	支持的 TPU 版本和可用区
一年或更长时间的未来预留	您提前请求一年或更长时间的 TPU 资源。在该时间段内，这些资源会预留供您专门使用。预留可极高地保障容量，价格低于按需资源。未来 TPU 预留包含承诺使用折扣 (CUD)。CUD 可在您购买承诺使用合约时提供折扣价格。如需了解详情，请参阅一年或更长时间的未来预留	一年或更长时间的未来预留非常适合长时间运行的训练作业和推理工作负载。	所有 TPU 版本：请参阅 TPU 区域和可用区
最长 90 天的未来预留（日历模式）	您可以针对特定开始时间和时长（介于 1 到 90 天之间）请求 TPU 资源。在该时间段内，这些资源会预留供您专门使用。如需了解详情，请参阅最长 90 天的未来预留（日历模式）预留可极高地保障容量，价格低于按需资源。	日历模式下的未来预留非常适合需要精确开始时间且具有明确时长的训练和实验工作负载。	用于训练和服务的 TPU7x (Ironwood)：us-central1-c 用于训练和服务的 v6e (Trillium)：asia-northeast1-b、us-east5-a 用于训练和服务的 v5p：us-east5-a
按需	您请求的 TPU 资源可立即使用，并且可使用多长时间由您决定。按需方案可提供极大的灵活性。按需资源不会被抢占，但无法保证有足够的可用 TPU 资源来满足您的请求。创建 TPU 资源时，按需是默认选项。如需详细了解如何创建和使用按需 TPU，请参阅创建 TPU 虚拟机。	按需非常适合需要灵活结束时间的紧急作业和工作负载。	所有 TPU 版本：请参阅 TPU 区域和可用区
灵活启动（预览版）	您可以针对特定时长（最长 7 天）请求 TPU 资源，而无需提前预留容量。 TPU 灵活启动虚拟机来自专用容量池，因此这些资源的可用性高于按需。如需了解详情，请参阅请求 TPU 灵活启动虚拟机。如需详细了解如何将 TPU 灵活启动虚拟机与 Google Kubernetes Engine (GKE) 搭配使用，请参阅关于使用灵活启动预配模式进行 GPU 和 TPU 预配。	灵活启动非常适合实验、小规模测试、为推理工作负载动态预配 TPU、模型微调以及运行时间不到 7 天的工作负载。	TPU7x (Ironwood)：us-central1-c（仅限使用 GKE） v6e (Trillium)：asia-northeast1-b、us-east5-a v5p：us-east5-a
Spot	您请求的 TPU 资源可能会被抢占。 Spot 虚拟机的价格远低于按需资源。与按需资源相比，Spot 虚拟机通常更容易获得，但可能随时被抢占（关停）。运行时长没有限制。如需详细了解 TPU Spot 虚拟机，请参阅管理 TPU Spot 虚拟机。	Spot 非常适合调度优先级较低的工作负载，例如模型预训练、模型微调，以及对可用性中断具有容忍性的模拟作业。	所有 TPU 版本：请参阅 TPU 区域和可用区

选择 TPU 版本

根据模型的训练或推理需求，选择 TPU 版本，例如 v5p、v6e 或 TPU7x (Ironwood)。如需了解详情，请参阅 TPU 版本。

申请 TPU 配额

无论采用哪种使用选项，您都需要为 Cloud TPU 资源设置按需配额或抢占式配额，才能使用 TPU 虚拟机。确保您有足够的配额来支持所选的选项、TPU 版本、大小和可用区。配额针对每个 TPU 版本而定，并且按需使用与抢占式使用的配额有所不同。部分 TPU 版本有默认配额；对于其他版本，您必须申请配额。如需了解详情，请参阅 Compute Engine 资源配额。

后续步骤

了解如何创建 TPU 虚拟机
了解如何管理 TPU