選擇開放模型供應選項

Vertex AI 提供多種方式,可在 Google Cloud中提供開放式大型語言模型,包括 Llama、DeepSeek、Mistral 和 Qwen。這份文件將概略說明 Vertex AI 提供的開放模型服務,協助您根據用途選擇合適的選項。

放送選項

Vertex AI 提供下列開放式模型服務選項。這些選項都提供高可用性,且預設包含 Google Cloud 安全性最佳做法:

何時使用 MaaS

在下列情況下,建議使用 MaaS:

  • 快速開發及原型設計:MaaS 可協助您快速將 LLM 功能整合至應用程式。這項功能特別適合用於初步探索、快速原型設計,以及快速上市是主要目標的情況。
  • 減少管理作業負擔:如果團隊想專注於應用程式邏輯,而非基礎架構管理,請選擇 MaaS。Google 會負責所有 GPU/TPU 的佈建、調度和維護作業,因此團隊可以專注於應用程式開發,不必擔心機器學習運作或開發運作。
  • 流量不穩定:隨用隨付模式支援實驗性工作負載,或流量模式無法預測且會突然暴增的應用程式。
  • 現成使用:如果應用程式需要穩定效能,但不需要深入自訂基礎模型或服務堆疊,請使用受管理 API。
  • 安全與法規遵循:企業可透過 MaaS 使用 Google Cloud's 內建的企業級安全與法規遵循功能。
  • 標準模型使用:如果標準的非自訂基礎模型符合需求,即可使用 MaaS。

在 Model Garden 中使用自行部署模型的時機

您可以選擇從 Model Garden 部署,並使用預先建構或自訂的容器。在下列主要情境中,請考慮自行部署:

  • 自訂權重和微調模型:如果應用程式需要使用自訂權重或微調模型版本,自行部署是最佳選擇,可更彈性地部署符合特定需求的模型。您也可以建構及部署自己的自訂服務容器。舉例來說,如果模型需要獨特的預先處理或後續處理邏輯,請使用這個選項。
  • 可預測的大量工作負載:對於流量可預測且量大的實際工作環境應用程式,自行部署是經濟實惠的策略性選擇。雖然前期工程投資較高,但由於大規模最佳化每權杖成本,應用程式生命週期的總持有成本 (TCO) 可能會降低。
  • 精細控管基礎架構:如需選擇特定硬體設定來微調效能和預算,請使用自行部署功能。包括選取確切的機器類型、GPU (例如 NVIDIA L4 或 H100) 或 TPU,以及最佳化服務架構。
  • 嚴格的安全性和法規遵循:這種做法支援必須遵守特定資料落地政策,或禁止使用多租戶管理服務的嚴格法規的應用程式。您可以在自己的 Google Cloud 專案和虛擬私有雲網路中安全部署模型,全面控管資料路徑。
  • 精細的位置控制:專屬端點可讓您在所有區域的任何 Compute Engine 加速器上部署 Google Cloud 。

預先建構容器的使用時機

建議您在下列情況下使用 Vertex AI 預建容器:

  • 最佳化效能:Vertex AI 會針對 vLLM 等架構最佳化及自訂預先建構的容器,以提升效能、可靠性,並在 Google Cloud中順暢整合。
  • 易於使用:使用 vLLM、Hex-LLM、SGLang、TGI 或 TensorRT-LLM 等熱門服務架構提供模型,不必自行建構及維護容器映像檔。

使用自訂 vLLM 容器的時機

在下列情況下,建議您建構及使用自己的自訂容器:

  • 最大彈性:現有的放送選項和預先建構的容器無法滿足您的需求,且您需要完全控管容器映像檔,包括依附元件和設定。
  • 自訂服務邏輯:當模型需要預先建構的容器不支援的獨特前處理或後處理步驟時。

後續步驟