Vertex AI の Kimi モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で Kimi モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Kimi モデルはマネージド API を使用するので、インフラストラクチャのプロビジョニングや管理は必要ありません。
レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。回答をストリーミングする際には、サーバー送信イベント(SSE)を使用して回答を段階的にストリーミングします。
使用可能な Kimi モデル
Vertex AI で使用できる Kimi のモデルは次のとおりです。Kimi モデルにアクセスするには、Model Garden のモデルカードに移動します。
Kimi K2 思考モード
Kimi K2 思考モードは、複雑な問題解決と深い推論に優れた Kimi の思考モデルです。
Kimi モデルを使用する
curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。
- Kimi K2 思考モードの場合は
kimi-k2-thinking-maasを使用します
Kimi モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。
Kimi モデルで利用可能なリージョンと割り当て
Kimi モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数(QPM)で指定されます。
| モデル | リージョン | 割り当て | コンテキストの長さ |
|---|---|---|---|
| Kimi K2 思考モード | |||
global |
|
262144 |
Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールで割り当ての引き上げをリクエストできます。割り当ての詳細については、クラウド割り当ての概要をご覧ください。
次のステップ
- オープンモデル API を呼び出す方法を確認する。