本文档介绍了如何使用预构建的容器映像在 Vertex AI 上部署和提供开放模型。Vertex AI 为热门服务框架(例如 vLLM、Hex-LLM 和 SGLang)提供预构建容器,还支持 Hugging Face 文本生成推理 (TGI)、文本嵌入推理 (TEI)、推理工具包(通过Google Cloud Hugging Face PyTorch 推理容器)和 Tensor-RT-LLM 容器,以便在 Vertex AI 上为受支持的模型提供服务。
vLLM 是一个开源库,旨在快速推理和部署大语言模型 (LLM)。Vertex AI 使用经过优化和自定义的 vLLM 版本。此版本专门用于增强 Google Cloud内的性能、可靠性和无缝集成。您可以使用 Vertex AI 的自定义 vLLM 容器映像在 Vertex AI 上提供模型。预构建 vLLM 容器可以从 Hugging Face 或 Cloud Storage 下载模型。如需详细了解如何使用 Vertex AI 预构建 vLLM 容器映像提供模型,请参阅使用 Vertex AI 预构建 vLLM 容器映像提供模型。
示例笔记本
以下笔记本演示了如何使用 Vertex AI 预构建容器来提供模型。您可以在 Vertex AI 示例的 GitHub 代码库中找到更多示例笔记本。
| 笔记本名称 | 说明 | 直接链接 (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3(部署) | 演示了如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。 | 在 GitHub 上查看 |
| Vertex AI Model Garden - 使用 vLLM 提供多模态 Llama 3.2 | 使用 vLLM 预构建容器部署多模态 Llama 3.2 模型。 | 在 GitHub 上查看 |
| Vertex AI Model Garden - Hugging Face 文本生成推理部署 | 演示了如何使用 Hugging Face 的文本生成推理 (TGI) 部署 Gemma-2-2b-it 模型 | 在 GitHub 上查看 |
| Vertex AI Model Garden - Hugging Face 文本嵌入推理部署 | 演示了如何使用 Hugging Face 的文本嵌入推理 (TEI) 部署 nomic-ai/nomic-embed-text-v1 | 在 GitHub 上查看 |
| Vertex AI Model Garden - Hugging Face PyTorch 推理部署 | 演示了如何使用 Hugging Face PyTorch 推理部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english | 在 GitHub 上查看 |
| Vertex AI Model Garden - DeepSeek 部署 | 演示了如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型 | 在 GitHub 上查看 |
| Vertex AI Model Garden - Qwen3 部署 | 演示了如何使用 SGLang 部署 Qwen3 模型 | 在 GitHub 上查看 |
| Vertex AI Model Garden - Gemma 3n 部署 | 演示了如何使用 SGLang 提供 Gemma3n 模型 | 在 GitHub 上查看 |
| Vertex AI Model Garden - 深入探究:使用 Hex-LLM 部署 Llama 3.1 和 3.2 | 演示了如何通过 Vertex AI Model Garden 在 TPU 上使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型 | 在 GitHub 上查看 |