このドキュメントでは、Vertex AI Agent Builder に適用される割り当てとシステムの上限について説明します。
- 割り当てにはデフォルト値がありますが、通常は調整をリクエストできます。
- システムの上限は固定値で、変更できません。
Google Cloud では、割り当てを使用して公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、 Google Cloud プロジェクトで使用できるGoogle Cloud リソースの量を制限します。割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用されます。たとえば、割り当てによって、サービスへの API 呼び出しの数、プロジェクトで同時に使用されるロードバランサの数、作成可能なプロジェクトの数を制限できます。割り当てを適用することで、サービスの過負荷を防ぎ、Google Cloud ユーザーのコミュニティを保護します。割り当ては、自組織で使用している Google Cloud リソースの管理にも役立ちます。
Cloud Quotas システムは次のことを行います。
- Google Cloud のプロダクトとサービスの消費量をモニタリングする
- これらのリソースの消費量を制限する
- 割り当て値の変更をリクエストし、割り当ての調整を自動化する手段を提供する
ほとんどの場合、割り当ての許容量を超えるリソースを消費しようとすると、システムによってリソースへのアクセスがブロックされ、実行しようとしているタスクは失敗します。
割り当ては通常、 Google Cloud プロジェクト レベルで適用されます。あるプロジェクトでリソースを使用しても、別のプロジェクトで使用可能な割り当てに影響することはありません。 Google Cloud プロジェクト内では、すべてのアプリケーションと IP アドレスで割り当てが共有されます。
詳細については、Cloud Quotas の概要をご覧ください。
Vertex AI Agent Engine の割り当て
各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます。| 説明 | 割り当て | 指標 |
|---|---|---|
| 1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| 1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 | 100 | aiplatform.googleapis.com/session_write_requests |
1 分あたりの Vertex AI Agent Engine のクエリ回数(Query または StreamQuery) |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| 1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数 | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Vertex AI Agent Engine リソースの最大数 | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| 1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得回数 | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| 1 分あたりのサンドボックス環境(Code Execution)の実行リクエスト数 | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| リージョンあたりのサンドボックス環境(Code Execution)のエンティティ数 | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
1 分あたりの A2A エージェントの POST リクエスト数(sendMessage や cancelTask など) |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
1 分あたりの A2A エージェントの GET リクエスト数(getTask や getCard など) |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
BidiStreamQuery API を使用した 1 分あたりの同時ライブ双方向接続数 |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
本番環境の負荷の割り当て管理
トラフィックがスケーリングされると、429 Resource Exhausted エラーを回避するために、特定の Vertex AI API 割り当ての引き上げをリクエストする必要が生じる可能性があります。ランタイムを事前に構成し、割り当てを増やすことで、本番環境の負荷の下でも Vertex AI Agent Engine ランタイムの応答性、スケーラビリティ、信頼性を維持できます。
Vertex AI Agent Engine のパフォーマンスを最適化してスケーリングする方法については、Vertex AI Agent Engine ランタイムのパフォーマンスを最適化してスケーリングするをご覧ください。
ピーク時の割り当て要件を見積もる手順は次のとおりです。
変数を定義します。
U: 同時ユーザーのピーク数(250 など)。X: ユーザーあたりの 1 分あたりの平均リクエスト数(例: 2)。Y: リクエストごとに生成されるセッション イベントの平均数(複数のツール呼び出しを含む複雑なチェーンの場合は 12 など)。
ピーク負荷を計算します。
1 分あたりの最大クエリ数(QPM)を計算します: U * X
ピーク時のセッション イベント数 / 分を計算します。ピーク時の QPM * Y
バッファ付きの割り当てをリクエストする: 割り当ての増加をリクエストするときに、計算されたピークにバッファ(50% など)を追加して、予期しないスパイクに対処します。
次の表は、Vertex AI Agent Engine のパフォーマンス関連の主要な割り当ての計算を示しています。peak concurrent users=250、average requests per user per minute=2、average session events generated
per request=12 の変数を使用しています。
| 割り当て名 | 割り当ての説明 | ベースの計算(ピーク) | 推奨値(50% のバッファを含む) |
|---|---|---|---|
1 分あたりのクエリ エージェント エンジン(aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
エージェントが 1 分あたりに受信できる query または stream_query 通話の合計数。 |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
1 分あたりのセッション イベントを追加する(aiplatform.googleapis.com/session_event_append_requests) |
進行中のすべてのセッション内のターン数またはイベント数。1 つのクエリで、チェーン内の複数のセッション イベントを生成できます。例:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
1 分あたりのセッション書き込み数(aiplatform.googleapis.com/session_write_requests) |
セッション リソースの作成または更新のレート。通常、これはクエリレート以下です。 | 通常 <= ピーク QPM(500) |
通常はクエリ割り当て(750)以下 |
割り当ての調整をリクエストする
通常、割り当てを調整するには Google Cloud コンソールを使用します。詳細については、割り当ての調整をリクエストするをご覧ください。
Vertex AI Agent Engine エクスプレス モードの割り当て
Vertex AI 無料枠のエクスプレス モードのユーザーには、Vertex AI Agent Engine サービスに対して次の割り当てが無料で提供されます。無料枠とエクスプレス モードの詳細については、エクスプレス モードの Vertex AI の概要をご覧ください。各リージョンの特定のエクスプレス モード プロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます。| 説明 | 割り当て | 指標 |
|---|---|---|
| Vertex AI Agent Engine リソースの最大数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
1 分あたりの Vertex AI Agent Engine のクエリ回数(Query または StreamQuery) |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
BidiStreamQuery API を使用した 1 分あたりの同時ライブ双方向接続数 |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| 1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 | 10 | aiplatform.googleapis.com/session_write_requests |
| 1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数 | 30 | aiplatform.googleapis.com/session_event_append_requests |
| 1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| 1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得回数 | 10 | aiplatform.googleapis.com/memory_bank_read_requests |