在 Cloud TPU 上使用 vLLM TPU 部署开放模型

vLLM TPU 是一种高效的大语言模型 (LLM) 部署框架，针对 Cloud TPU 硬件进行了优化。它由 tpu-inference 提供支持，这是一个富有表现力且功能强大的新硬件插件，可通过单一的下推路径将 JAX 和 Pytorch 进行统一整合。

如需详细了解此框架，请参阅 vLLM TPU 博文。

可在 Model Garden 中通过一键式部署和笔记本来使用 vLLM TPU。

开始使用 Model Garden

vLLM TPU 服务容器已集成到 Model Garden 中。您可以通过一键式部署和 Colab Enterprise 笔记本示例在各种模型中使用该数据供给解决方案。

使用一键式部署

您可以通过以下模型的模型卡片部署提供 vLLM TPU 的自定义 Vertex AI 端点：

步骤：

前往模型卡片页面（例如 google/gemma-3-27b-it），然后点击部署模型以打开部署面板。
在资源 ID 下，选择要部署的模型变体。
对于要部署的模型变体，点击修改设置，然后在机器规格下选择 vLLM TPU 选项进行部署。
点击面板底部的部署以开始部署流程。端点准备就绪后，您会收到邮件通知。

使用 Colab Enterprise 笔记本

为了实现灵活的自定义内容，您可以使用 Colab Enterprise 笔记本示例通过 Vertex AI SDK for Python 部署提供 vLLM TPU 的 Vertex AI 端点。

在 Colab Enterprise 中打开 vLLM TPU 笔记本。
运行该笔记本，以使用 vLLM TPU 部署模型，并将预测请求发送到端点。

申请 Cloud TPU 配额

在 Model Garden 中，默认配额为 europe-west4 区域中的 16 个 Cloud TPU v6e 芯片。此配额适用于一键式部署和 Colab Enterprise 笔记本部署。如果您的默认配额为 0，或者您想申请更多配额，请参阅申请配额调整。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-12-04。