本頁面由 Cloud Translation API 翻譯而成。

Kimi 模型

您可以在 Vertex AI 上使用 Kimi 模型，做為受管理 API 和自行部署的模型。您可以串流回應，減少使用者感受到的延遲。串流回應會使用伺服器傳送事件 (SSE) 逐步串流回應。

受管理的 Kimi 模型

Kimi 模型提供全代管無伺服器模型做為 API。如要在 Vertex AI 上使用 Kimi 模型，請直接將要求傳送至 Vertex AI API 端點。使用 Kimi 模型做為受管理 API 時，不需要佈建或管理基礎架構。

您可以在 Vertex AI 中使用 Kimi 的下列模型。如要存取 Kimi 模型，請前往 Model Garden 的模型資訊卡。

Kimi K2 Thinking 是 Kimi 的思考模型，擅長解決複雜問題和深入推論。

如果是受管理模型，您可以使用 curl 指令，透過下列模型名稱將要求傳送至 Vertex AI 端點：

如要瞭解如何對 Kimi 模型發出串流和非串流呼叫，請參閱呼叫開放模型 API。

如要使用自行部署的 Vertex AI 模型，請按照下列步驟操作：

如要進一步瞭解如何部署及使用合作夥伴模型，請參閱「部署合作夥伴模型並提出預測要求」。

如果是 Kimi 模型，則適用於模型可用的每個區域。配額以每分鐘查詢次數 (QPM) 為單位。

型號	區域	配額	脈絡長度
Kimi K2 Thinking
Kimi K2 Thinking	`global`		262144

如要增加任何 Vertex AI 的生成式 AI 配額，可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額，請參閱「Cloud Quotas 總覽」。