Vertex AI 提供多種方式,可在 Google Cloud中提供開放式大型語言模型,包括 Llama、DeepSeek、Mistral 和 Qwen。這份文件將概略說明 Vertex AI 提供的開放模型服務,協助您根據用途選擇合適的選項。
放送選項
Vertex AI 提供下列開放式模型服務選項。這些選項都提供高可用性,且預設包含 Google Cloud 安全性最佳做法:
- 模型即服務 (MaaS):使用無伺服器代管 API 提供開放模型。
- Model Garden 中自行部署的模型: 使用一鍵部署或自訂權重,從 Model Garden 部署開放模型。
- Vertex AI 預建容器映像檔:使用熱門服務架構的預建容器 (例如 vLLM、Hex-LLM 和 TGI) 提供開放原始碼模型。
- 自訂 vLLM 容器:可建構及部署自訂 vLLM 容器,彈性更高。
何時使用 MaaS
在下列情況下,建議使用 MaaS:
- 快速開發及原型設計:MaaS 可協助您快速將 LLM 功能整合至應用程式。這項功能特別適合用於初步探索、快速原型設計,以及快速上市是主要目標的情況。
- 減少管理作業負擔:如果團隊想專注於應用程式邏輯,而非基礎架構管理,請選擇 MaaS。Google 會負責所有 GPU/TPU 的佈建、調度和維護作業,因此團隊可以專注於應用程式開發,不必擔心機器學習運作或開發運作。
- 流量不穩定:隨用隨付模式支援實驗性工作負載,或流量模式無法預測且會突然暴增的應用程式。
- 現成使用:如果應用程式需要穩定效能,但不需要深入自訂基礎模型或服務堆疊,請使用受管理 API。
- 安全與法規遵循:企業可透過 MaaS 使用 Google Cloud's 內建的企業級安全與法規遵循功能。
- 標準模型使用:如果標準的非自訂基礎模型符合需求,即可使用 MaaS。
在 Model Garden 中使用自行部署模型的時機
您可以選擇從 Model Garden 部署,並使用預先建構或自訂的容器。在下列主要情境中,請考慮自行部署:
- 自訂權重和微調模型:如果應用程式需要使用自訂權重或微調模型版本,自行部署是最佳選擇,可更彈性地部署符合特定需求的模型。您也可以建構及部署自己的自訂服務容器。舉例來說,如果模型需要獨特的預先處理或後續處理邏輯,請使用這個選項。
- 可預測的大量工作負載:對於流量可預測且量大的實際工作環境應用程式,自行部署是經濟實惠的策略性選擇。雖然前期工程投資較高,但由於大規模最佳化每權杖成本,應用程式生命週期的總持有成本 (TCO) 可能會降低。
- 精細控管基礎架構:如需選擇特定硬體設定來微調效能和預算,請使用自行部署功能。包括選取確切的機器類型、GPU (例如 NVIDIA L4 或 H100) 或 TPU,以及最佳化服務架構。
- 嚴格的安全性和法規遵循:這種做法支援必須遵守特定資料落地政策,或禁止使用多租戶管理服務的嚴格法規的應用程式。您可以在自己的 Google Cloud 專案和虛擬私有雲網路中安全部署模型,全面控管資料路徑。
- 精細的位置控制:專屬端點可讓您在所有區域的任何 Compute Engine 加速器上部署 Google Cloud 。
預先建構容器的使用時機
建議您在下列情況下使用 Vertex AI 預建容器:
- 最佳化效能:Vertex AI 會針對 vLLM 等架構最佳化及自訂預先建構的容器,以提升效能、可靠性,並在 Google Cloud中順暢整合。
- 易於使用:使用 vLLM、Hex-LLM、SGLang、TGI 或 TensorRT-LLM 等熱門服務架構提供模型,不必自行建構及維護容器映像檔。
使用自訂 vLLM 容器的時機
在下列情況下,建議您建構及使用自己的自訂容器:
- 最大彈性:現有的放送選項和預先建構的容器無法滿足您的需求,且您需要完全控管容器映像檔,包括依附元件和設定。
- 自訂服務邏輯:當模型需要預先建構的容器不支援的獨特前處理或後處理步驟時。