Kimi 模型

Vertex AI 上的 Kimi 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 Kimi 模型，请直接向 Vertex AI API 端点发送请求。由于 Kimi 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 Kimi 模型

Kimi 提供了以下模型，可在 Vertex AI 中使用。如需访问 Kimi 模型，请前往其 Model Garden 模型卡片。

Kimi K2 思考

Kimi K2 Thinking 是来自 Kimi 的思考模型，擅长解决复杂问题和进行深度推理。

前往 Kimi K2 Thinking 模型卡片

使用 Kimi 模型

您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求：

对于 Kimi K2 Thinking，请使用 kimi-k2-thinking-maas

如需了解如何对 Kimi 模型进行流式和非流式调用，请参阅调用开放模型 API。

Kimi 模型区域可用性和配额

对于 Kimi 模型，提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。

型号	区域	配额	上下文长度
Kimi K2 思考
Kimi K2 思考	`global`		262144

如果要增加 Vertex AI 上的生成式 AI 的任何配额，您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额，请参阅 Cloud 配额概览。

后续步骤

了解如何调用开放模型 API。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-12-17。