Vertex AI 開放模型 (適用於 MaaS)

Vertex AI 支援精選的開放原始碼模型清單,並將這些模型視為代管模型。這些開放模型可搭配 Vertex AI 做為模型即服務 (MaaS) 使用,並以代管 API 形式提供。使用代管開放式模型時,您仍會將要求傳送至 Vertex AI 端點。受管理開放模型採用無伺服器架構,因此無須佈建或管理基礎架構。

您可以使用 Model Garden 探索受管理開放模型。您也可以使用 Model Garden 部署模型。詳情請參閱「探索 Model Garden 中的 AI 模型」。

如要使用開放模型,請先授予使用者開放模型存取權

開放式模型

Vertex AI Model Garden (MaaS) 提供下列開放式模型做為代管 API:

模型名稱 模態 說明 快速入門導覽課程
DeepSeek-OCR 語言、視覺 這項全面的光學字元辨識 (OCR) 模型可分析及理解複雜文件,擅長處理困難的 OCR 工作。 模型資訊卡
DeepSeek R1 (0528) 語言 DeepSeek 最新版的 DeepSeek R1 模型。 模型資訊卡
DeepSeek-V3.1 語言 DeepSeek 的混合式模型,支援思考模式和非思考模式。 模型資訊卡
DeepSeek-V3.2 語言 DeepSeek 的模型,兼具高運算效率和卓越的推論與代理程式效能。 模型資訊卡
Gemma 4 26B A4B IT 語言 Google DeepMind 開發的 Google 開放式模型系列。 模型資訊卡
GLM 4.7 語言、代碼 GLM 模型專為核心或直覺式程式開發、工具操作和複雜推論而設計。 模型資訊卡
GLM 5 語言、代碼 GLM 的模型,適用於複雜的系統工程和長期的代理任務。 模型資訊卡
gpt-oss 120B 語言 120B 模型,擅長執行推論工作。 模型資訊卡
gpt-oss 20B 語言 這款 200 億參數模型經過最佳化,可在消費型和邊緣硬體上有效率地部署及執行。 模型資訊卡
Kimi K2 Thinking 語言 開放原始碼的思考型代理模型,可逐步推論並使用工具解決複雜問題。 模型資訊卡
Llama 3.3 語言 Llama 3.3 是純文字 70B 指令微調模型,相較於 Llama 3.1 70B 和 Llama 3.2 90B,用於純文字應用程式時效能更佳。此外,在某些應用程式中,Llama 3.3 70B 的效能已接近 Llama 3.1 405B。 模型資訊卡
Llama 4 Maverick 17B-128E 語言、視覺 這是最大且最強大的 Llama 4 模型,具備程式設計、推論和圖像功能。Llama 4 Maverick 17B-128E 是多模態模型,採用混合專家 (MoE) 架構和早期融合技術。 模型資訊卡
Llama 4 Scout 17B-16E 語言、視覺 Llama 4 Scout 17B-16E 在同級模型中表現優異,在多項基準測試中,都優於先前的 Llama 版本和其他開放原始碼及專有模型。Llama 4 Scout 17B-16E 是多模態模型,採用混合專家 (MoE) 架構和早期融合技術。 模型資訊卡
MiniMax M2 語言、代碼 專為代理式和程式碼相關工作設計,擅長規劃及執行複雜的工具呼叫工作。 模型資訊卡
Qwen3 235B 語言 開放權重模型,具備「混合思考」能力,可在有條理的推論和快速對話之間切換。 模型資訊卡
Qwen3 Coder 語言、代碼 這款開放權重模型專為進階軟體開發工作而設計。 模型資訊卡
Qwen3-Next-80B Instruct 語言、代碼 Qwen3-Next 系列模型,專門用於執行特定指令。 模型資訊卡
Qwen3-Next-80B Thinking 語言、代碼 Qwen3-Next 系列模型之一,專門用於解決複雜問題和深入推理。 模型資訊卡

Vertex AI Model Garden (MaaS) 提供下列開放式嵌入模型做為代管 API:

模型名稱 說明 輸出尺寸 序列長度上限 支援的文字語言 快速入門導覽課程
multilingual-e5-small 屬於 E5 系列文字嵌入模型。小型變體包含 12 個圖層。 最多 384 個 512 個權杖 支援的語言 模型資訊卡
multilingual-e5-large 屬於 E5 系列文字嵌入模型。大型變體包含 24 層。 最多 1024 個 512 個權杖 支援的語言 模型資訊卡

開放模型法規遵循

透過 Vertex AI 以代管 API 形式使用開放式模型時,Vertex AI 上的生成式 AI認證仍適用。如需模型本身的詳細資料,請參閱相應的模型資訊卡,或與相應的模型發布者聯絡。

您的資料會儲存在 Vertex AI 開放模型所選的區域或多區域,但資料處理的區域化程度可能有所不同。如需開放模型的資料處理承諾詳細清單,請參閱「開放模型的資料落地」。

使用 Vertex AI API (包括開放式模型) 時,系統不會將客戶提示和模型回覆分享給第三方。Google 只會按照客戶指示處理客戶資料,詳情請參閱《Cloud 資料處理附加條款》。

脈絡快取

如果對 Open Models 的要求包含重複內容,內容快取功能有助於降低要求成本和延遲時間。這項功能僅在採用即付即用流量時啟用,不支援其他流量類型,例如佈建輸送量和 Batch。

支援的快取類型為隱含快取,也就是預設在所有 Google Cloud 專案中啟用的自動快取。與標準輸入權杖相比,快取命中時,快取權杖可享 90% 的折扣。使用這類快取時,您不需要明確定義及呼叫快取。而是會在偵測到重複內容時,從這些快取提取資料。

支援的模型

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas

回應中繼資料的 cachedContentTokenCount 欄位會指出輸入內容快取部分的權杖數量。快取要求必須包含至少 4096 個權杖 (此下限在預先發布期間可能會變更)。

啟用後,系統會自動將隱含快取命中節省的費用轉移給你。我們無法保證快取命中率,這取決於傳送的要求和其他因素。如要提高隱含快取命中率,請嘗試下列做法:

  • 在提示開頭放置大型和常見內容。
  • 在短時間內傳送具有類似前置字串的要求。

後續步驟