Vertex AI の MiniMax モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で MiniMax モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。MiniMax モデルはマネージド API を使用します。インフラストラクチャのプロビジョニングや管理は不要です。
レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。回答をストリーミングする際には、サーバー送信イベント(SSE)を使用して回答を段階的にストリーミングします。
利用可能な MiniMax モデル
Vertex AI で使用できる MiniMax のモデルは次のとおりです。MiniMax モデルにアクセスするには、Model Garden のモデルカードに移動します。
MiniMax M2
MiniMax M2 は、エージェント関連のタスクとコード関連のタスク向けに設計された MiniMax のモデルです。エンドツーエンドの開発ワークフロー向けに構築されており、複雑なツール呼び出しタスクの計画と実行に優れた機能があります。このモデルは、パフォーマンス、費用、推論速度のバランスを取るように最適化されています。
MiniMax モデルを使用する
curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。
- MiniMax M2 の場合は、
minimax-m2-maasを使用します。
MiniMax モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。
MiniMax モデルのリージョン可用性と割り当て
MiniMax モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数(QPM)で指定されます。
| モデル | リージョン | 割り当て | コンテキストの長さ | 最大出力 |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196,608 | 4,096 |
Vertex AI の生成 AI の割り当てを引き上げるには、 Google Cloud コンソールで割り当ての引き上げをリクエストします。割り当ての詳細については、クラウド割り当ての概要をご覧ください。
次のステップ
- オープンモデル API を呼び出す方法を確認する。