vLLM TPU 是一种高效的大语言模型 (LLM) 服务框架,专为 Cloud TPU 硬件优化。它由 tpu-inference 提供支持,这是一个富有表现力且功能强大的新硬件插件,可在单个降级路径下统一 JAX 和 Pytorch。
如需详细了解此框架,请参阅 vLLM TPU 博文。
可在 Model Garden 中通过一键式部署和笔记本使用 vLLM TPU。
开始使用 Model Garden
vLLM TPU 服务容器已集成到 Model Garden 中。您可以通过一键式部署和 Colab Enterprise 笔记本示例在各种模型中使用该数据供给解决方案。
使用一键式部署
您可以通过以下模型的模型卡片部署提供 vLLM TPU 的自定义 Vertex AI 端点:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
步骤:
前往模型卡片页面(例如 google/gemma-3-27b-it),然后点击部署模型以打开部署面板。
在资源 ID 下,选择要部署的模型变体。
对于要部署的模型变体,点击修改设置,然后在机器规格下选择 vLLM TPU 选项进行部署。
点击面板底部的部署以开始部署流程。 端点准备就绪后,您会收到电子邮件通知。
使用 Colab Enterprise 笔记本
为了实现灵活的自定义内容,您可以使用 Colab Enterprise 笔记本示例通过 Vertex AI SDK for Python 部署提供 vLLM TPU 的 Vertex AI 端点。
在 Colab Enterprise 中打开 vLLM TPU 笔记本。
运行该笔记本,以使用 vLLM TPU 部署模型,并将预测请求发送到端点。
申请 Cloud TPU 配额
在 Model Garden 中,默认配额为 europe-west4 区域中的 16 个 Cloud TPU v6e 芯片。此配额适用于一键式部署和 Colab Enterprise 笔记本部署。如果您的默认配额为 0,或者您想申请更多配额,请参阅申请配额调整。