您可以在 Vertex AI 上使用 Kimi 模型,做為受管理 API 和自行部署的模型。您可以串流回應,減少使用者感受到的延遲。串流回應會使用伺服器傳送事件 (SSE) 逐步串流回應。
受管理的 Kimi 模型
Kimi 模型提供全代管無伺服器模型做為 API。如要在 Vertex AI 上使用 Kimi 模型,請直接將要求傳送至 Vertex AI API 端點。使用 Kimi 模型做為受管理 API 時,不需要佈建或管理基礎架構。
您可以在 Vertex AI 中使用 Kimi 的下列模型。如要存取 Kimi 模型,請前往 Model Garden 的模型資訊卡。
Kimi K2 Thinking
Kimi K2 Thinking 是 Kimi 的思考模型,擅長解決複雜問題和深入推論。
使用 Kimi 模型
如果是受管理模型,您可以使用 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:
- 如要使用 Kimi K2 Thinking,請使用
kimi-k2-thinking-maas
如要瞭解如何對 Kimi 模型發出串流和非串流呼叫,請參閱呼叫開放模型 API。
如要使用自行部署的 Vertex AI 模型,請按照下列步驟操作:
- 前往 Model Garden 控制台。
- 找出相關的 Vertex AI 模型。
- 按一下「啟用」並填寫表單,取得必要的商業用途授權。
如要進一步瞭解如何部署及使用合作夥伴模型,請參閱「部署合作夥伴模型並提出預測要求」。
Kimi 模型支援的區域和配額
如果是 Kimi 模型,則適用於模型可用的每個區域。配額以每分鐘查詢次數 (QPM) 為單位。
| 型號 | 區域 | 配額 | 脈絡長度 |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「Cloud Quotas 總覽」。
後續步驟
- 瞭解如何呼叫開放模型 API。