Vertex AI 上的 MiniMax 模型提供全代管無伺服器模型做為 API。如要在 Vertex AI 上使用 MiniMax 模型,請直接將要求傳送至 Vertex AI API 端點。由於 MiniMax 模型使用受管理的 API,因此不需要佈建或管理基礎架構。
你可以串流傳送回覆,減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE) 逐步串流回應。
可用的 MiniMax 模型
MiniMax 提供下列模型,可在 Vertex AI 中使用。如要存取 MiniMax 模型,請前往 Model Garden 的模型資訊卡。
MiniMax M2
MiniMax M2 是 MiniMax 的模型,專為代理程式和程式碼相關工作所設計。這項模型專為端對端開發工作流程而建構,在規劃及執行複雜的工具呼叫工作方面,具有強大的功能。這個模型經過最佳化,可在效能、成本和推論速度之間取得平衡。
使用 MiniMax 模型
您可以使用 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:
- 如果是 MiniMax M2,請使用
minimax-m2-maas
如要瞭解如何對 MiniMax 模型發出串流和非串流呼叫,請參閱「呼叫開放模型 API」。
MiniMax 模型支援的區域和配額
如果是 MiniMax 模型,配額適用於模型可用的每個區域。配額以每分鐘查詢次數 (QPM) 為單位。
| 型號 | 區域 | 配額 | 脈絡長度 | 最大輸出 |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196,608 | 4,096 |
如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「Cloud Quotas 總覽」。
後續步驟
- 瞭解如何呼叫開放模型 API。