Gemini Enterprise Agent Platform の生成 AI の割り当てとシステム上限

このページでは、リージョンとモデルごとの割り当てのリストを示します。また、 コンソールで割り当てを表示して編集する方法についても説明します。 Google Cloud

チューニング済みモデルの割り当て

チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。

埋め込みの上限

gemini-embedding-001 のリクエストにはリージョン割り当てが適用され、gemini-embedding-2 のリクエストにはグローバル割り当てが適用されます。
ベースモデル Quota 指標
base_model: gemini-embedding 5,000,000 aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 10,000,000 aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 40,000 aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model

predict API を使用する gemini-embedding-001 のリクエストには、次の割り当ても適用されます。

ベースモデル Quota 指標
base_model: gemini-embedding 100,000 aiplatform.googleapis.com/online_prediction_requests_per_base_model
base_model: N/A 30,000 aiplatform.googleapis.com/online_prediction_requests

Vertex AI Agent Engine の割り当て

各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます:
説明 割り当て 指標
1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 100 aiplatform.googleapis.com/session_write_requests
1 分あたりの Vertex AI Agent Engine セッションの取得、一覧表示、取得回数 10000 aiplatform.googleapis.com/session_read_requests
1 分あたりの Vertex AI Agent Engine の クエリ回数(Query または StreamQuery 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数 300 aiplatform.googleapis.com/session_event_append_requests
Vertex AI Agent Engine リソースの最大数 100 aiplatform.googleapis.com/reasoning_engine_service_entities
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 100 aiplatform.googleapis.com/memory_bank_write_requests
1 分あたりの Vertex AI Agent Engine メモリバンクからの取得、一覧表示、取得回数 300 aiplatform.googleapis.com/memory_bank_read_requests
1 分あたりのサンドボックス環境(Code Execution)の実行リクエスト数 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
リージョンあたりのサンドボックス環境(Code Execution)のエンティティ数 1000 aiplatform.googleapis.com/sandbox_environment_entities
1 分あたりのサンドボックス環境(Code Execution)の書き込みリクエスト数 500 aiplatform.googleapis.com/sandbox_environment_write_requests
1 分あたりの A2A エージェントの POST リクエスト数(sendMessagecancelTask など) 60 aiplatform.googleapis.com/a2a_agent_post_requests
1 分あたりの A2A エージェントの GET リクエスト数(getTaskgetCard など) 600 aiplatform.googleapis.com/a2a_agent_get_requests
BidiStreamQuery API を使用した 1 分あたりの同時ライブ双方向接続数 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

バッチ予測

バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。

Gemini モデルの同時バッチ推論ジョブの上限

Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチ リクエストが容量不足のためにキューに登録されることがあります。

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。
割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

コンソールで割り当てを表示して編集する Google Cloud

コンソールで割り当てを表示して編集するには、次の操作を行います。
    Google Cloud
  1. [割り当てとシステム上限] ページに移動します。
  2. [割り当てとシステム上限] に移動

  3. 割り当てを調整するには、[フィルタ] でプロパティ aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs をコピーして貼り付けます。Enter キーを押します。
  4. 行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
  5. ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。

Vertex AI RAG Engine

RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス 割り当て 指標
RAG Engine データ マネジメント API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

指定できる追加のフィルタは base_model: textembedding-gecko です。
次の上限が適用されます。
サービス 上限 指標
同時に可能な ImportRagFiles リクエスト 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles リクエストあたりの最大ファイル数 10,000 VertexRagService import rag files requests per region

その他のレート制限と割り当てについては、Gemini Enterprise Agent Platform の生成 AI のレート制限をご覧ください。

Gen AI Evaluation Service

Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして Gemini 2.5 Flash を使用します。 モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの使用量は組織レベルで計算されます。つまり、モデル推論とモデルベースの評価のために判定モデルに送信されるリクエストはすべてモデルの使用量にカウントされます。 次の表に、Gen AI Evaluation Service と基盤となる判定モデルの割り当てを示します。
リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
Gemini スループット モデルと使用量オプションによって異なります
同時評価実行 1 リージョン、1 プロジェクトあたり 20 件の同時評価実行

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。

Gemini Enterprise Agent Platform Pipelines の割り当て

チューニング ジョブは Gemini Enterprise Agent Platform Pipelines を使用します。詳細については、 Agent Platform Pipelines の割り当てと上限をご覧ください。

次のステップ

概要

Standard PayGo について学習します。これは、Agent Platform の使用量オプションで、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。

リソース

プロダクト固有の割り当てとシステム上限を除く、Agent Platform に関連する割り当てとシステム上限。

概要

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、割り当てがハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用される方法について説明します。