本文档介绍了如何使用预构建的容器映像在 Gemini Enterprise Agent Platform 上部署和提供开放模型。Gemini Enterprise Agent Platform 为热门服务框架(例如 vLLM、 Hex-LLM 和 SGLang)提供预构建 容器,还支持 Hugging Face 文本生成推理 (TGI)、文本 嵌入推理 (TEI)、推理 工具包(通过 Google Cloud Hugging Face PyTorch 推理 容器) 和 Tensor-RT-LLM 容器,以便在 Gemini Enterprise Agent Platform 上为受支持的模型提供服务。
vLLM 是一个开源库,旨在快速推理和部署大语言模型 (LLM)。Gemini Enterprise Agent Platform 使用经过优化和自定义的 vLLM 版本。此版本专门用于增强性能、 可靠性和 内的无缝集成 Google Cloud。您可以使用 Gemini Enterprise Agent Platform 的自定义 vLLM 容器映像在 Gemini Enterprise Agent Platform 上提供模型。预构建 vLLM 容器可以从 Hugging Face 或 Cloud Storage 下载模型。如需详细了解如何使用 Gemini Enterprise Agent Platform 预构建 vLLM 容器映像提供模型 ,请参阅使用 Gemini Enterprise Agent Platform 预构建 vLLM 容器 映像提供模型。
示例笔记本
以下笔记本演示了如何使用 Gemini Enterprise Agent Platform 预构建容器来提供模型。您可以在 GitHub 代码库中找到更多 Gemini Enterprise Agent Platform 示例笔记本。
| 笔记本名称 | 说明 | 直接链接 (GitHub/Colab) |
|---|---|---|
| Gemini Enterprise Agent Platform Model Garden - Gemma 3(部署) | 演示了如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - 使用 vLLM 提供多模态 Llama 3.2 | 使用 vLLM 预构建容器部署多模态 Llama 3.2 模型。 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face 文本生成推理部署 | 演示了如何使用 Hugging Face 的文本生成推理 (TGI) 部署 Gemma-2-2b-it 模型 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face 文本嵌入推理部署 | 演示了如何使用 Hugging Face 的文本嵌入推理 (TEI) 部署 nomic-ai/nomic-embed-text-v1 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face PyTorch 推理部署 | 演示了如何使用 Hugging Face PyTorch 推理部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - DeepSeek 部署 | 演示了如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - Qwen3 部署 | 演示了如何使用 SGLang 部署 Qwen3 模型 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - Gemma 3n 部署 | 演示了如何使用 SGLang 提供 Gemma3n 模型 | 在 GitHub 上查看 |
| Gemini Enterprise Agent Platform Model Garden - 深入探究:使用 Hex-LLM 部署 Llama 3.1 和 3.2 | 演示了如何通过 Gemini Enterprise Agent Platform Model Garden 在 TPU 上使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型 | 在 GitHub 上查看 |