Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Enterprise Agent Platform の生成 AI の割り当てとシステム上限

このページでは、リージョンとモデルごとの割り当てのリストを示します。また、コンソールで割り当てを表示して編集する方法についても説明します。 Google Cloud

チューニング済みモデルの割り当て

チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。

埋め込みの上限

gemini-embedding-001 のリクエストにはリージョン割り当てが適用され、gemini-embedding-2 のリクエストにはグローバル割り当てが適用されます。

ベースモデル	Quota	指標
base_model: gemini-embedding	5,000,000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10,000,000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40,000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

predict API を使用した gemini-embedding-001 のリクエストには、次の割り当ても適用されます。

ベースモデル	Quota	指標
base_model: gemini-embedding	100,000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: N/A	30,000	`aiplatform.googleapis.com/online_prediction_requests`

Vertex AI Agent Engine の割り当て

各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます:

説明	割り当て	指標
1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数	100	`aiplatform.googleapis.com/session_write_requests`
1 分あたりの Vertex AI Agent Engine セッションの取得、一覧表示、取得回数	10000	`aiplatform.googleapis.com/session_read_requests`
1 分あたりの Vertex AI Agent Engine のクエリ回数（`Query` または `StreamQuery`）	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数	300	`aiplatform.googleapis.com/session_event_append_requests`
Vertex AI Agent Engine リソースの最大数	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数	100	`aiplatform.googleapis.com/memory_bank_write_requests`
1 分あたりの Vertex AI Agent Engine メモリバンクからの取得、一覧表示、取得回数	300	`aiplatform.googleapis.com/memory_bank_read_requests`
1 分あたりのサンドボックス環境（Code Execution）の実行リクエスト数	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
リージョンあたりのサンドボックス環境（Code Execution）のエンティティ数	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
1 分あたりのサンドボックス環境（Code Execution）の書き込みリクエスト数	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
1 分あたりの A2A エージェントの POST リクエスト数（`sendMessage` や `cancelTask` など）	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
1 分あたりの A2A エージェントの GET リクエスト数（`getTask` や `getCard` など）	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
`BidiStreamQuery` API を使用した 1 分あたりの同時ライブ双方向接続数	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

バッチ予測

バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。

Gemini モデルの同時バッチ推論ジョブの上限

Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。

割り当て	値
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

コンソールで割り当てを表示して編集する Google Cloud

コンソールで割り当てを表示して編集するには、次の操作を行います。

Google Cloud

[割り当てとシステム上限] ページに移動します。

[割り当てとシステム上限] に移動

割り当てを調整するには、[フィルタ] でプロパティ aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs をコピーして貼り付けます。Enter キーを押します。
行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。

Gemini Enterprise Agent Platform の RAG Engine

RAG Engine を使用して検索拡張生成（RAG）を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数（RPM）で測定されます。

サービス	割り当て	指標
RAG Engine データマネジメント API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 指定できる追加のフィルタは `base_model: textembedding-gecko` です。

次の上限が適用されます。

サービス	上限	指標
同時に可能な `ImportRagFiles` リクエスト	3 RPM	`VertexRagService concurrent import requests per region`
`ImportRagFiles` リクエストあたりの最大ファイル数	10,000	`VertexRagService import rag files requests per region`

その他のレート制限と割り当てについては、Gemini Enterprise Agent Platform の生成 AI のレート制限をご覧ください。

Gen AI Evaluation Service

Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして Gemini 2.5 Flash を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの使用量は組織レベルで計算されます。つまり、モデル推論とモデルベースの評価のために判定モデルに送信されるリクエストはすべてモデルの使用量にカウントされます。次の表に、Gen AI Evaluation Service と基盤となる判定モデルの割り当てを示します。

リクエストの割り当て	デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト	1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
Gemini スループット	モデルと使用量オプションによって異なります
同時評価実行	1 リージョン、1 プロジェクトあたり 20 件の同時評価実行

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限	値
Gen AI Evaluation Service リクエストのタイムアウト	60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります（通常は 2 分以内）。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。

Gemini Enterprise Agent Platform Pipelines の割り当て

チューニングジョブは Gemini Enterprise Agent Platform Pipelines を使用します。詳細については、 Agent Platform Pipelines の割り当てと上限をご覧ください。

次のステップ

概要

Gemini Enterprise Agent Platform の生成 AI の割り当てとシステム上限

チューニング済みモデルの割り当て

埋め込みの上限

Vertex AI Agent Engine の割り当て

バッチ予測

Gemini モデルの同時バッチ推論ジョブの上限

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

コンソールで割り当てを表示して編集する Google Cloud

Gemini Enterprise Agent Platform の RAG Engine

Gen AI Evaluation Service

Gemini Enterprise Agent Platform Pipelines の割り当て

次のステップ

Standard PayGo

Agent Platform の割り当てとシステム上限

Google Cloud の割り当て

Gemini Enterprise Agent Platform の生成 AI の割り当てとシステム上限 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

チューニング済みモデルの割り当て

埋め込みの上限

Vertex AI Agent Engine の割り当て

バッチ予測

Gemini モデルの同時バッチ推論ジョブの上限

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

コンソールで割り当てを表示して編集する Google Cloud

Gemini Enterprise Agent Platform の RAG Engine

Gen AI Evaluation Service

Gemini Enterprise Agent Platform Pipelines の割り当て

次のステップ

Standard PayGo

Agent Platform の割り当てとシステム上限

Google Cloud の割り当て

Gemini Enterprise Agent Platform の生成 AI の割り当てとシステム上限