本頁面由 Cloud Translation API 翻譯而成。

選擇開放模型供應選項

Vertex AI 提供多種方式，可在 Google Cloud中提供開放式大型語言模型，包括 Llama、DeepSeek、Mistral 和 Qwen。這份文件將概略說明 Vertex AI 提供的開放模型服務，協助您根據用途選擇合適的選項。

放送選項

Vertex AI 提供下列開放式模型服務選項。這些選項都提供高可用性，且預設包含 Google Cloud 安全性最佳做法：

在下列情況下，建議使用 MaaS：

快速開發及原型設計：MaaS 可協助您快速將 LLM 功能整合至應用程式。這項功能特別適合用於初步探索、快速原型設計，以及快速上市是主要目標的情況。
減少管理作業負擔：如果團隊想專注於應用程式邏輯，而非基礎架構管理，請選擇 MaaS。Google 會負責所有 GPU/TPU 的佈建、調度和維護作業，因此團隊可以專注於應用程式開發，不必擔心機器學習運作或開發運作。
流量不穩定：隨用隨付模式支援實驗性工作負載，或流量模式無法預測且會突然暴增的應用程式。
現成使用：如果應用程式需要穩定效能，但不需要深入自訂基礎模型或服務堆疊，請使用受管理 API。
安全與法規遵循：企業可透過 MaaS 使用 Google Cloud's 內建的企業級安全與法規遵循功能。
標準模型使用：如果標準的非自訂基礎模型符合需求，即可使用 MaaS。

您可以選擇從 Model Garden 部署，並使用預先建構或自訂的容器。在下列主要情境中，請考慮自行部署：

自訂權重和微調模型：如果應用程式需要使用自訂權重或微調模型版本，自行部署是最佳選擇，可更彈性地部署符合特定需求的模型。您也可以建構及部署自己的自訂服務容器。舉例來說，如果模型需要獨特的預先處理或後續處理邏輯，請使用這個選項。
可預測的大量工作負載：對於流量可預測且量大的實際工作環境應用程式，自行部署是經濟實惠的策略性選擇。雖然前期工程投資較高，但由於大規模最佳化每權杖成本，應用程式生命週期的總持有成本 (TCO) 可能會降低。
精細控管基礎架構：如需選擇特定硬體設定來微調效能和預算，請使用自行部署功能。包括選取確切的機器類型、GPU (例如 NVIDIA L4 或 H100) 或 TPU，以及最佳化服務架構。
嚴格的安全性和法規遵循：這種做法支援必須遵守特定資料落地政策，或禁止使用多租戶管理服務的嚴格法規的應用程式。您可以在自己的 Google Cloud 專案和虛擬私有雲網路中安全部署模型，全面控管資料路徑。
精細的位置控制：專屬端點可讓您在所有區域的任何 Compute Engine 加速器上部署 Google Cloud 。

建議您在下列情況下使用 Vertex AI 預建容器：

在下列情況下，建議您建構及使用自己的自訂容器：