本頁面由 Cloud Translation API 翻譯而成。

使用預先建構的容器部署開放原始碼模型

本文說明如何使用預建容器映像檔，在 Vertex AI 上部署及提供開放原始碼模型。Vertex AI 提供熱門服務架構的預建容器，例如 vLLM、Hex-LLM 和 SGLang，並支援 Hugging Face Text Generation Inference (TGI)、Text Embeddings Inference (TEI)、Inference Toolkit (透過Google Cloud Hugging Face PyTorch Inference Containers) 和 Tensor-RT-LLM 容器，可在 Vertex AI 上提供支援的模型。

vLLM 是開放原始碼程式庫，可快速推論及服務大型語言模型 (LLM)。Vertex AI 使用 vLLM 的最佳化自訂版本。這個版本專為提升效能、可靠性及在 Google Cloud中順暢整合而設計。您可以使用 Vertex AI 的自訂 vLLM 容器映像檔，在 Vertex AI 上提供模型。預先建構的 vLLM 容器可從 Hugging Face 或 Cloud Storage 下載模型。如要進一步瞭解如何使用 Vertex AI 預建 vLLM 容器映像檔提供模型服務，請參閱「使用 Vertex AI 預建 vLLM 容器映像檔提供模型服務」。

範例筆記本

下列筆記本示範如何使用 Vertex AI 預建容器提供模型服務。如需更多範例筆記本，請前往 Vertex AI 範例的 GitHub 存放區。

筆記本名稱	說明	直接連結 (GitHub/Colab)
Vertex AI Model Garden - Gemma 3 (部署)	示範如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。	前往 GitHub 查看
Vertex AI Model Garden - Serve Multimodal Llama 3.2 with vLLM	使用 vLLM 預先建構的容器部署多模態 Llama 3.2 模型。	前往 GitHub 查看
Vertex AI Model Garden - Hugging Face 文字生成推論部署	示範如何從 Hugging Face 部署 Gemma-2-2b-it 模型，並使用 Text Generation Inference (TGI)	前往 GitHub 查看
Vertex AI Model Garden - Hugging Face 文字嵌入推論部署	示範如何使用 Hugging Face 的 Text Embeddings Inference (TEI)，部署 nomic-ai/nomic-embed-text-v1	前往 GitHub 查看
Vertex AI Model Garden - Hugging Face PyTorch 推論部署	示範如何使用 Hugging Face PyTorch Inference 部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english	前往 GitHub 查看
Vertex AI Model Garden - DeepSeek 部署	示範如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型	前往 GitHub 查看
Vertex AI Model Garden - Qwen3 部署作業	示範如何使用 SGLang 提供 Qwen3 模型	前往 GitHub 查看
Vertex AI Model Garden - Gemma 3n 部署	展示如何使用 SGLang 提供 Gemma3n 模型	前往 GitHub 查看
Vertex AI Model Garden 深入探討：使用 Hex-LLM 部署 Llama 3.1 和 3.2	示範如何透過 Vertex AI Model Garden，在 TPU 使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型	前往 GitHub 查看

使用預先建構的容器部署開放原始碼模型 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

範例筆記本

後續步驟

使用預先建構的容器部署開放原始碼模型