リクエスト数がリクエストの処理に割り当てられた容量を超えると、エラーコード 429 が返されます。次の表に、各タイプの割り当てフレームワークによって生成されるエラー メッセージを示します。
| 割り当てフレームワーク | メッセージ |
|---|---|
| 従量課金制 | Resource exhausted, please try again later. |
| プロビジョンド スループット | Too many requests. Exceeded the Provisioned Throughput. |
プロビジョンド スループット(PT)のサブスクリプションがある場合、特定の生成 AI
モデルのために一定量のスループットを予約できます。PT
のサブスクリプションがなく、アプリケーションでリソースを使用できない場合、エラーコード 429
が返されます。予約済みの容量がない状況でも、再度リクエストを試すことはできます。ただし、この場合のリクエストは、サービスレベル
契約(SLA)に記載されているエラー率にカウントされません。
PT を購入したプロジェクトの場合、Vertex AI はプロジェクトのスループットを測定し、購入したスループット量をプロジェクトの実際の使用量に対して予約します。
標準 PT の場合、購入した量よりも少ない量を使用すると、通常なら 429 になるエラーが 5XX として返され、SLA
のエラー率にカウントされます。シングルゾーン PT の場合、購入した量よりも少ない量を使用すると、容量関連の 429 エラーは
5XX として扱われますが、SLA エラー率にはカウントされません。購入した量を超えると、追加のリクエストはオンデマンドで従量課金制として処理されます。
Pay-as-you-go
従量課金制の割り当てフレームワークでは、429 エラーを解決するために次のオプションがあります。
- 可能な限り、リージョン エンドポイントではなくグローバル エンドポイント を使用する。
- 切り捨て型指数バックオフを使用して再試行方法を実装する 。
- モデルで割り当てを使用している場合は、割り当て増加リクエスト(QIR)を送信する。モデルで 標準の従量課金制を使用している場合は、トラフィックを平滑化して 大きなスパイクを減らすと効果的です。
- より一貫したサービスレベルを実現するために、PT に登録する。 詳細については、 PT をご覧ください。
PT
PT によって生成された 429 エラーを修正するには、次の操作を行います。
- 予測リクエストでヘッダーを設定しないデフォルトの動作 の例を使用します。超過分はオンデマンドで処理され、従量課金制で請求されます。
- PT のサブスクリプションの GSU 数を増やします。
次のステップ
- 標準の従量課金制の詳細については、標準の従量課金制をご覧ください。
- PT の詳細については、 プロビジョンド スループットをご覧ください。
- Agent Platform の割り当てと上限については、 Agent Platform の割り当てと上限をご覧ください。
- Cloud Quotas のドキュメントで Google Cloud の割り当てとシステムの上限の詳細を確認する 。