MiniMax モデル

Vertex AI の MiniMax モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で MiniMax モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。MiniMax モデルはマネージド API を使用します。インフラストラクチャのプロビジョニングや管理は不要です。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。回答をストリーミングする際には、サーバー送信イベント(SSE)を使用して回答を段階的にストリーミングします。

利用可能な MiniMax モデル

Vertex AI で使用できる MiniMax のモデルは次のとおりです。MiniMax モデルにアクセスするには、Model Garden のモデルカードに移動します。

MiniMax M2

MiniMax M2 は、エージェント関連のタスクとコード関連のタスク向けに設計された MiniMax のモデルです。エンドツーエンドの開発ワークフロー向けに構築されており、複雑なツール呼び出しタスクの計画と実行に優れた機能があります。このモデルは、パフォーマンス、費用、推論速度のバランスを取るように最適化されています。

MiniMax M2 モデルカードに移動する

MiniMax モデルを使用する

curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。

  • MiniMax M2 の場合は、minimax-m2-maas を使用します。

MiniMax モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。

MiniMax モデルのリージョン可用性と割り当て

MiniMax モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数(QPM)で指定されます。

モデル リージョン 割り当て コンテキストの長さ 最大出力
MiniMax M2
global endpoint
196,608 4,096

Vertex AI の生成 AI の割り当てを引き上げるには、 Google Cloud コンソールで割り当ての引き上げをリクエストします。割り当ての詳細については、クラウド割り当ての概要をご覧ください。

次のステップ