在 Cloud TPU 上使用 vLLM TPU 提供开放模型

vLLM TPU 是一种高效的大语言模型 (LLM) 服务框架,专为 Cloud TPU 硬件优化。它由 tpu-inference 提供支持,这是一个富有表现力且功能强大的新硬件插件,可在单个降级路径下统一 JAXPytorch

如需详细了解此框架,请参阅 vLLM TPU 博文

可在 Model Garden 中通过一键式部署和笔记本使用 vLLM TPU。

开始使用 Model Garden

vLLM TPU 服务容器已集成到 Model Garden 中。您可以通过一键式部署和 Colab Enterprise 笔记本示例在各种模型中使用该数据供给解决方案。

使用一键式部署

您可以通过以下模型的模型卡片部署提供 vLLM TPU 的自定义 Vertex AI 端点:

步骤:

  1. 前往模型卡片页面(例如 google/gemma-3-27b-it),然后点击部署模型以打开部署面板。

  2. 资源 ID 下,选择要部署的模型变体。

  3. 对于要部署的模型变体,点击修改设置,然后在机器规格下选择 vLLM TPU 选项进行部署。

  4. 点击面板底部的部署以开始部署流程。 端点准备就绪后,您会收到电子邮件通知。

使用 Colab Enterprise 笔记本

为了实现灵活的自定义内容,您可以使用 Colab Enterprise 笔记本示例通过 Vertex AI SDK for Python 部署提供 vLLM TPU 的 Vertex AI 端点。

  1. 在 Colab Enterprise 中打开 vLLM TPU 笔记本

  2. 运行该笔记本,以使用 vLLM TPU 部署模型,并将预测请求发送到端点。

申请 Cloud TPU 配额

在 Model Garden 中,默认配额为 europe-west4 区域中的 16 个 Cloud TPU v6e 芯片。此配额适用于一键式部署和 Colab Enterprise 笔记本部署。如果您的默认配额为 0,或者您想申请更多配额,请参阅申请配额调整