Cloud TPU 推理

服务是指将训练好的机器学习模型部署到生产环境中的过程,在该环境中,模型可用于推理。TPU v5e 及更高版本支持推理。延迟时间 SLO 是服务优先考虑的因素。

本文档讨论如何在单主机 TPU 上部署模型。具有 8 个或更少芯片的 TPU 切片具有一个 TPU 虚拟机或主机,称为单主机 TPU。如需了解多主机推理,请参阅使用 Pathways 执行多主机推理

开始使用

您需要拥有 Google Cloud 账号和项目才能使用 Cloud TPU。如需了解详情,请参阅设置 Cloud TPU 环境

确保您有足够的配额来支持您计划用于推理的 TPU 核心数。TPU v5e 的训练和应用配额是分开的。TPU v5e 的服务专用配额如下:

  • 按需使用的 v5e 资源TPUv5 lite pod cores for serving per project per zone
  • 抢占式 v5e 资源Preemptible TPU v5 lite pod cores for serving per project per zone

对于其他 TPU 版本,训练和提供服务工作负载使用相同的配额。如需了解详情,请参阅 Cloud TPU 配额

使用 vLLM 部署 LLM

vLLM 是一个开源库,旨在实现大语言模型 (LLM) 的快速推理和服务。Cloud TPU 通过 tpu-inference 插件与 vLLM 集成,该插件支持 JAX 和 PyTorch 模型。如需了解详情,请参阅 tpu-inference GitHub 代码库

如需查看使用 vLLM 在 TPU 上部署模型的示例,请参阅以下内容:

分析

设置推理后,您可以使用性能分析器分析性能和 TPU 利用率。如需详细了解性能分析,请参阅: