このページでは、リージョンとモデルごとの割り当てのリストを示します。また、 コンソールで割り当てを表示して編集する方法についても説明します。 Google Cloud
チューニング済みモデルの割り当て
チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。
埋め込みの上限
gemini-embedding-001 のリクエストにはリージョン割り当てが適用され、gemini-embedding-2 のリクエストにはグローバル割り当てが適用されます。
| ベースモデル | Quota | 指標 |
|---|---|---|
| base_model: gemini-embedding | 5,000,000 | aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 10,000,000 | aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 40,000 | aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model |
predict API を使用する gemini-embedding-001 のリクエストには、次の割り当ても適用されます。
| ベースモデル | Quota | 指標 |
|---|---|---|
| base_model: gemini-embedding | 100,000 | aiplatform.googleapis.com/online_prediction_requests_per_base_model |
| base_model: N/A | 30,000 | aiplatform.googleapis.com/online_prediction_requests |
Vertex AI Agent Engine の割り当て
各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の割り当てが適用されます:| 説明 | 割り当て | 指標 |
|---|---|---|
| 1 分あたりの Vertex AI Agent Engine リソースの作成、削除、更新回数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| 1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 | 100 | aiplatform.googleapis.com/session_write_requests |
| 1 分あたりの Vertex AI Agent Engine セッションの取得、一覧表示、取得回数 | 10000 | aiplatform.googleapis.com/session_read_requests |
1 分あたりの Vertex AI Agent Engine の
クエリ回数(Query または StreamQuery)
|
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| 1 分あたりの Vertex AI Agent Engine セッションへのイベントの追加回数 | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Vertex AI Agent Engine リソースの最大数 | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| 1 分あたりの Vertex AI Agent Engine メモリバンクからの取得、一覧表示、取得回数 | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| 1 分あたりのサンドボックス環境(Code Execution)の実行リクエスト数 | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| リージョンあたりのサンドボックス環境(Code Execution)のエンティティ数 | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| 1 分あたりのサンドボックス環境(Code Execution)の書き込みリクエスト数 | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
1 分あたりの A2A エージェントの POST リクエスト数(sendMessage や cancelTask など) |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
1 分あたりの A2A エージェントの GET リクエスト数(getTask や getCard など)
|
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
BidiStreamQuery API を使用した 1 分あたりの同時ライブ双方向接続数 |
10 |
aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
|
バッチ予測
バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。Gemini モデルの同時バッチ推論ジョブの上限
Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチ リクエストが容量不足のためにキューに登録されることがあります。Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て
次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。| 割り当て | 値 |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
コンソールで割り当てを表示して編集する Google Cloud
コンソールで割り当てを表示して編集するには、次の操作を行います。-
Google Cloud
- [割り当てとシステム上限] ページに移動します。
- 割り当てを調整するには、[フィルタ] でプロパティ
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsをコピーして貼り付けます。Enter キーを押します。 - 行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
- ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。
Vertex AI RAG Engine
RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。| サービス | 割り当て | 指標 |
|---|---|---|
| RAG Engine データ マネジメント API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model指定できる追加のフィルタは base_model: textembedding-gecko です。 |
| サービス | 上限 | 指標 |
|---|---|---|
同時に可能な ImportRagFiles リクエスト |
3 RPM | VertexRagService concurrent import requests per region |
ImportRagFiles リクエストあたりの最大ファイル数 |
10,000 | VertexRagService import rag files requests per region |
その他のレート制限と割り当てについては、Gemini Enterprise Agent Platform の生成 AI のレート制限をご覧ください。
Gen AI Evaluation Service
Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして Gemini 2.5 Flash を使用します。 モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの使用量は組織レベルで計算されます。つまり、モデル推論とモデルベースの評価のために判定モデルに送信されるリクエストはすべてモデルの使用量にカウントされます。 次の表に、Gen AI Evaluation Service と基盤となる判定モデルの割り当てを示します。| リクエストの割り当て | デフォルトの割り当て |
|---|---|
| 1 分あたりの Gen AI Evaluation Service リクエスト | 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト |
| Gemini スループット | モデルと使用量オプションによって異なります |
| 同時評価実行 | 1 リージョン、1 プロジェクトあたり 20 件の同時評価実行 |
Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。
| 上限 | 値 |
|---|---|
| Gen AI Evaluation Service リクエストのタイムアウト | 60 秒 |
新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。
モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。
Gemini Enterprise Agent Platform Pipelines の割り当て
チューニング ジョブは Gemini Enterprise Agent Platform Pipelines を使用します。詳細については、 Agent Platform Pipelines の割り当てと上限をご覧ください。
次のステップ
Standard PayGo
Standard PayGo について学習します。これは、Agent Platform の使用量オプションで、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。
Google Cloud の割り当て
Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、割り当てがハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用される方法について説明します。