使用預先建構的容器部署開放原始碼模型

本文說明如何使用預建容器映像檔,在 Vertex AI 上部署及提供開放原始碼模型。Vertex AI 提供熱門服務架構的預建容器,例如 vLLMHex-LLMSGLang,並支援 Hugging Face Text Generation Inference (TGI)Text Embeddings Inference (TEI)Inference Toolkit (透過Google Cloud Hugging Face PyTorch Inference Containers) 和 Tensor-RT-LLM 容器,可在 Vertex AI 上提供支援的模型。

vLLM 是開放原始碼程式庫,可快速推論及服務大型語言模型 (LLM)。Vertex AI 使用 vLLM 的最佳化自訂版本。這個版本專為提升效能、可靠性及在 Google Cloud中順暢整合而設計。您可以使用 Vertex AI 的自訂 vLLM 容器映像檔,在 Vertex AI 上提供模型。預先建構的 vLLM 容器可從 Hugging Face 或 Cloud Storage 下載模型。如要進一步瞭解如何使用 Vertex AI 預建 vLLM 容器映像檔提供模型服務,請參閱「使用 Vertex AI 預建 vLLM 容器映像檔提供模型服務」。

範例筆記本

下列筆記本示範如何使用 Vertex AI 預建容器提供模型服務。如需更多範例筆記本,請前往 Vertex AI 範例的 GitHub 存放區

筆記本名稱 說明 直接連結 (GitHub/Colab)
Vertex AI Model Garden - Gemma 3 (部署) 示範如何使用 vLLM 在 GPU 上部署 Gemma 3 模型。 前往 GitHub 查看
Vertex AI Model Garden - Serve Multimodal Llama 3.2 with vLLM 使用 vLLM 預先建構的容器部署多模態 Llama 3.2 模型。 前往 GitHub 查看
Vertex AI Model Garden - Hugging Face 文字生成推論部署 示範如何從 Hugging Face 部署 Gemma-2-2b-it 模型,並使用 Text Generation Inference (TGI) 前往 GitHub 查看
Vertex AI Model Garden - Hugging Face 文字嵌入推論部署 示範如何使用 Hugging Face 的 Text Embeddings Inference (TEI),部署 nomic-ai/nomic-embed-text-v1 前往 GitHub 查看
Vertex AI Model Garden - Hugging Face PyTorch 推論部署 示範如何使用 Hugging Face PyTorch Inference 部署 distilbert/distilbert-base-uncased-finetuned-sst-2-english 前往 GitHub 查看
Vertex AI Model Garden - DeepSeek 部署 示範如何使用 vLLM、SGLang 或 TensorRT-LLM 提供 DeepSeek 模型 前往 GitHub 查看
Vertex AI Model Garden - Qwen3 部署作業 示範如何使用 SGLang 提供 Qwen3 模型 前往 GitHub 查看
Vertex AI Model Garden - Gemma 3n 部署 展示如何使用 SGLang 提供 Gemma3n 模型 前往 GitHub 查看
Vertex AI Model Garden 深入探討:使用 Hex-LLM 部署 Llama 3.1 和 3.2 示範如何透過 Vertex AI Model Garden,在 TPU 使用 Hex-LLM 部署 Llama 3.1 和 3.2 模型 前往 GitHub 查看

後續步驟