使用预构建容器部署开放模型

本文档介绍了如何使用预构建的容器映像在 Vertex AI 上部署和提供开放模型。Vertex AI 为热门服务框架（例如 vLLM、Hex-LLM 和 SGLang）提供预构建容器，还支持 Hugging Face 文本生成推理 (TGI)、文本嵌入推理 (TEI)、推理工具包（通过Google Cloud Hugging Face PyTorch 推理容器）和 Tensor-RT-LLM 容器，以便在 Vertex AI 上为受支持的模型提供服务。

vLLM 是一个开源库，旨在快速推理和部署大语言模型 (LLM)。Vertex AI 使用经过优化和自定义的 vLLM 版本。此版本专门用于增强 Google Cloud内的性能、可靠性和无缝集成。您可以使用 Vertex AI 的自定义 vLLM 容器映像在 Vertex AI 上提供模型。预构建 vLLM 容器可以从 Hugging Face 或 Cloud Storage 下载模型。如需详细了解如何使用 Vertex AI 预构建 vLLM 容器映像提供模型，请参阅使用 Vertex AI 预构建 vLLM 容器映像提供模型。

示例笔记本

以下笔记本演示了如何使用 Vertex AI 预构建容器来提供模型。您可以在 Vertex AI 示例的 GitHub 代码库中找到更多示例笔记本。

笔记本名称	说明	直接链接 (GitHub/Colab)
Vertex AI Model Garden - Gemma 3（部署）	演示了如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。	在 GitHub 上查看
Vertex AI Model Garden - 使用 vLLM 提供多模态 Llama 3.2	使用 vLLM 预构建容器部署多模态 Llama 3.2 模型。	在 GitHub 上查看
Vertex AI Model Garden - Hugging Face 文本生成推理部署	演示了如何使用 Hugging Face 的文本生成推理 (TGI) 部署 Gemma-2-2b-it 模型	在 GitHub 上查看
Vertex AI Model Garden - Hugging Face 文本嵌入推理部署	演示了如何使用 Hugging Face 的文本嵌入推理 (TEI) 部署 nomic-ai/nomic-embed-text-v1	在 GitHub 上查看
Vertex AI Model Garden - Hugging Face PyTorch 推理部署	演示了如何使用 Hugging Face PyTorch 推理部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english	在 GitHub 上查看
Vertex AI Model Garden - DeepSeek 部署	演示了如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型	在 GitHub 上查看
Vertex AI Model Garden - Qwen3 部署	演示了如何使用 SGLang 部署 Qwen3 模型	在 GitHub 上查看
Vertex AI Model Garden - Gemma 3n 部署	演示了如何使用 SGLang 提供 Gemma3n 模型	在 GitHub 上查看
Vertex AI Model Garden - 深入探究：使用 Hex-LLM 部署 Llama 3.1 和 3.2	演示了如何通过 Vertex AI Model Garden 在 TPU 上使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型	在 GitHub 上查看

使用预构建容器部署开放模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

示例笔记本

后续步骤

使用预构建容器部署开放模型