Cloud TPU 推理
服务是指将训练好的机器学习模型部署到生产环境中的过程,在该环境中,模型可用于推理。TPU v5e 及更高版本支持推理。延迟时间 SLO 是服务优先考虑的因素。
本文档讨论如何在单主机 TPU 上部署模型。具有 8 个或更少芯片的 TPU 切片具有一个 TPU 虚拟机或主机,称为单主机 TPU。如需了解多主机推理,请参阅使用 Pathways 执行多主机推理。
开始使用
您需要拥有 Google Cloud 账号和项目才能使用 Cloud TPU。如需了解详情,请参阅设置 Cloud TPU 环境。
确保您有足够的配额来支持您计划用于推理的 TPU 核心数。TPU v5e 的训练和应用配额是分开的。TPU v5e 的服务专用配额如下:
- 按需使用的 v5e 资源:
TPUv5 lite pod cores for serving per project per zone
- 抢占式 v5e 资源:
Preemptible TPU v5 lite pod cores for serving per project per zone
对于其他 TPU 版本,训练和提供服务工作负载使用相同的配额。如需了解详情,请参阅 Cloud TPU 配额。
使用 vLLM 部署 LLM
vLLM 是一个开源库,旨在实现大语言模型 (LLM) 的快速推理和服务。Cloud TPU 通过 tpu-inference
插件与 vLLM 集成,该插件支持 JAX 和 PyTorch 模型。如需了解详情,请参阅 tpu-inference
GitHub 代码库。
如需查看使用 vLLM 在 TPU 上部署模型的示例,请参阅以下内容:
分析
设置推理后,您可以使用性能分析器分析性能和 TPU 利用率。如需详细了解性能分析,请参阅: