Kimi モデル

Vertex AI の Kimi モデルは、API としてフルマネージドモデルとサーバーレスモデルを提供します。Vertex AI で Kimi モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Kimi モデルはマネージド API を使用するので、インフラストラクチャのプロビジョニングや管理は必要ありません。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。回答をストリーミングする際には、サーバー送信イベント（SSE）を使用して回答を段階的にストリーミングします。

使用可能な Kimi モデル

Vertex AI で使用できる Kimi のモデルは次のとおりです。Kimi モデルにアクセスするには、Model Garden のモデルカードに移動します。

Kimi K2 思考モード

Kimi K2 思考モードは、複雑な問題解決と深い推論に優れた Kimi の思考モデルです。

Kimi K2 思考モデルカードに移動

Kimi モデルを使用する

curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。

Kimi K2 思考モードの場合は kimi-k2-thinking-maas を使用します

Kimi モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。

Kimi モデルで利用可能なリージョンと割り当て

Kimi モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数（QPM）で指定されます。

モデル	リージョン	割り当て	コンテキストの長さ
Kimi K2 思考モード
Kimi K2 思考モード	`global`		262144

Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールで割り当ての引き上げをリクエストできます。割り当ての詳細については、クラウド割り当ての概要をご覧ください。

次のステップ

オープンモデル API を呼び出す方法を確認する。

Kimi モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。