Vertex AI の生成 AI の割り当てとシステム上限

このページでは、生成 AI サービスを使用する 2 つの方法を紹介し、リージョンとモデルごとの割り当てのリストを示します。また、 Google Cloud コンソールで割り当てを表示して編集する方法についても説明します。

概要

生成 AI サービスを使用する方法は 2 つあります。従量課金制（PayGo）を選択するか、前払いのプロビジョンドスループットを使用できます。

従量課金制を使用している場合、生成 AI 機能の使用には、使用しているモデルに応じて次のいずれかの割り当てシステムが適用されます。

Gemini 2.0 より前のモデルでは、各生成 AI モデルに標準の割り当てシステムが使用されます。これにより、公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。
新しいモデルでは、動的共有割り当て（DSQ）が使用されます。これにより、特定のモデルとリージョンのすべてのユーザー間で利用可能な PayGo 容量が動的に分配されるため、割り当てを設定したり、割り当て増加リクエストを送信する必要がなくなります。DSQ に割り当てはありません。

アプリケーションの高可用性を確保し、本番環境ワークロードに対して予測可能なサービスレベルを実現するには、プロビジョンドスループットをご覧ください。

モデル別の割り当てシステム

次のモデルは、動的共有割り当て（DSQ）をサポートしています。

Gemini 3 Pro プレビューモデル
Gemini 3 Pro Image プレビューモデル
Gemini 2.5 Pro
Gemini 2.5 Flash プレビューモデル
Gemini 2.5 Flash-Lite プレビューモデル
Gemini 2.5 Flash Image
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Live API を使用した Gemini 2.0 Flash プレビューモデル
画像生成機能を搭載した Gemini 2.0 Flash プレビューモデル
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Gemini 以外のモデルと以前の Gemini モデルでは、標準の割り当てシステムが使用されます。詳細については、Vertex AI の割り当てと上限をご覧ください。

MaaS サードパーティモデルは標準割り当てを使用します。詳細については、各モデルの参照ページ（パートナーモデルを使用する）をご覧ください。

チューニング済みモデルの割り当て

チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。

テキストエンベディングの上限

各リクエストには、最大 250 個の入力テキスト（入力テキストごとに 1 つのエンベディングを生成）と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。gemini-embedding-001 の場合、割り当ては gemini-embedding という名前で一覧表示されます。

1 ベースモデルの 1 分あたりのコンテンツ埋め込み入力トークン数

以前のエンベディングモデルは主に RPM 割り当てによって制限されていましたが、Gemini エンベディングモデルの割り当てでは、プロジェクトごとに 1 分あたりに送信できるトークンの数が制限されます。

割り当て	値
1 分あたりに埋め込まれるコンテンツ入力トークン	5,000,000

Vertex AI Agent Engine の割り当て

各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます。

説明	割り当て	指標
1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数	100	`aiplatform.googleapis.com/session_write_requests`
1 分あたりの Vertex AI Agent Engine のクエリ回数（`Query` または `StreamQuery`）	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数	300	`aiplatform.googleapis.com/session_event_append_requests`
Vertex AI Agent Engine リソースの最大数	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数	100	`aiplatform.googleapis.com/memory_bank_write_requests`
1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得回数	300	`aiplatform.googleapis.com/memory_bank_read_requests`
1 分あたりのサンドボックス環境（Code Execution）の実行リクエスト数	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
リージョンあたりのサンドボックス環境（Code Execution）のエンティティ数	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
1 分あたりの A2A エージェントの POST リクエスト数（`sendMessage` や `cancelTask` など）	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
1 分あたりの A2A エージェントの GET リクエスト数（`getTask` や `getCard` など）	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
`BidiStreamQuery` API を使用した 1 分あたりの同時ライブ双方向接続数	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

バッチ予測

バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。

Gemini モデルの同時バッチ推論ジョブの上限

Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。

割り当て	値
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

Google Cloud コンソールで割り当てを表示して編集する

Google Cloud コンソールで割り当てを表示して編集するには、次の操作を行います。

[割り当てとシステム上限] ページに移動します。

[割り当てとシステム上限] に移動

割り当てを調整するには、[フィルタ] でプロパティ aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs をコピーして貼り付けます。Enter キーを押します。
行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。

Vertex AI RAG Engine

RAG Engine を使用して検索拡張生成（RAG）を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数（RPM）で測定されます。

サービス	割り当て	指標
RAG Engine データマネジメント API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 指定できる追加のフィルタは `base_model: textembedding-gecko` です。

次の上限が適用されます。

サービス	上限	指標
同時に可能な `ImportRagFiles` リクエスト	3 RPM	`VertexRagService concurrent import requests per region`
`ImportRagFiles` リクエストあたりの最大ファイル数	10,000	`VertexRagService import rag files requests per region`

その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。

Gen AI Evaluation Service

Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして gemini-2.0-flash を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-2.0-flash に送信されるリクエストはすべて割り当てにカウントされます。次の表に、Gen AI Evaluation Service と基盤となる判定モデルの割り当てを示します。

リクエストの割り当て	デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト	1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
`base_model: gemini-2.0-flash` の 1 分あたりのオンライン予測リクエスト数	リージョンとモデル別の割り当てをご覧ください。
同時評価実行	1 リージョン、1 プロジェクトあたり 20 件の同時評価実行

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限	値
Gen AI Evaluation Service リクエストのタイムアウト	60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります（通常は 2 分以内）。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、Google モデルをご覧ください。

Vertex AI Pipelines の割り当て

チューニングジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

次のステップ

動的共有割り当ての詳細を確認する。動的共有割り当てをご覧ください。
Vertex AI の割り当てと上限の詳細を確認する。Vertex AI の割り当てと上限をご覧ください。
Google Cloud の割り当てとシステムの上限の詳細を確認する。Cloud Quotas のドキュメントをご覧ください。