使用预构建容器部署开放模型

本文档介绍了如何使用预构建的容器映像在 Vertex AI 上部署和提供开放模型。Vertex AI 为热门服务框架(例如 vLLMHex-LLMSGLang)提供预构建容器,还支持 Hugging Face 文本生成推理 (TGI)文本嵌入推理 (TEI)推理工具包(通过Google Cloud Hugging Face PyTorch 推理容器)和 Tensor-RT-LLM 容器,以便在 Vertex AI 上为受支持的模型提供服务。

vLLM 是一个开源库,旨在快速推理和部署大语言模型 (LLM)。Vertex AI 使用经过优化和自定义的 vLLM 版本。此版本专门用于增强 Google Cloud内的性能、可靠性和无缝集成。您可以使用 Vertex AI 的自定义 vLLM 容器映像在 Vertex AI 上提供模型。预构建 vLLM 容器可以从 Hugging Face 或 Cloud Storage 下载模型。如需详细了解如何使用 Vertex AI 预构建 vLLM 容器映像提供模型,请参阅使用 Vertex AI 预构建 vLLM 容器映像提供模型

示例笔记本

以下笔记本演示了如何使用 Vertex AI 预构建容器来提供模型。您可以在 Vertex AI 示例的 GitHub 代码库中找到更多示例笔记本。

笔记本名称 说明 直接链接 (GitHub/Colab)
Vertex AI Model Garden - Gemma 3(部署) 演示了如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。 在 GitHub 上查看
Vertex AI Model Garden - 使用 vLLM 提供多模态 Llama 3.2 使用 vLLM 预构建容器部署多模态 Llama 3.2 模型。 在 GitHub 上查看
Vertex AI Model Garden - Hugging Face 文本生成推理部署 演示了如何使用 Hugging Face 的文本生成推理 (TGI) 部署 Gemma-2-2b-it 模型 在 GitHub 上查看
Vertex AI Model Garden - Hugging Face 文本嵌入推理部署 演示了如何使用 Hugging Face 的文本嵌入推理 (TEI) 部署 nomic-ai/nomic-embed-text-v1 在 GitHub 上查看
Vertex AI Model Garden - Hugging Face PyTorch 推理部署 演示了如何使用 Hugging Face PyTorch 推理部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english 在 GitHub 上查看
Vertex AI Model Garden - DeepSeek 部署 演示了如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型 在 GitHub 上查看
Vertex AI Model Garden - Qwen3 部署 演示了如何使用 SGLang 部署 Qwen3 模型 在 GitHub 上查看
Vertex AI Model Garden - Gemma 3n 部署 演示了如何使用 SGLang 提供 Gemma3n 模型 在 GitHub 上查看
Vertex AI Model Garden - 深入探究:使用 Hex-LLM 部署 Llama 3.1 和 3.2 演示了如何通过 Vertex AI Model Garden 在 TPU 上使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型 在 GitHub 上查看

后续步骤