標準従量課金制(標準 PayGo)は、Vertex AI の生成 AI モデルのスイート(Vertex AI の Gemini モデル ファミリーや Imagen モデル ファミリーなど)を利用するための使用量オプションです。Standard PayGo では、事前の財務コミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量階層システムが組み込まれています。Vertex AI は、過去 30 日間の対象となる Vertex AI サービスの合計費用に基づいて、組織のベースライン スループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスのしきい値が高くなる上位の階層に自動的に昇格します。
使用量階層とスループット
各 Standard PayGo 使用量階層は、組織のトラフィックの予測可能なパフォーマンスの下限として機能する、トークン / 分(TPM)で測定されるベースライン スループットを提供することを目的としています。スループットの上限は、グローバル エンドポイントに送信されるリクエストに基づいています。グローバル エンドポイントを使用すると、スループット容量のより大きなマルチリージョン プールにアクセスでき、可用性が最も高いロケーションにリクエストをルーティングしてパフォーマンスを最大化できるため、グローバル エンドポイントを使用することをおすすめします。
トラフィックはベースライン スループットの上限に厳密に制限されません。Vertex AI では、ベスト エフォート ベースでこの上限を超えてトラフィックをバーストできます。ただし、Vertex AI プラットフォーム全体で需要が高い期間には、この超過バースト トラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、これらのエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを分散することをおすすめします。第 2 レベルの急激なスパイクでリクエストを送信しないようにします。トラフィックが急増すると、1 分あたりの平均使用量が上限を下回っていても、スロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。
Standard PayGo では次の階層を使用できます。
| モデル ファミリー | 階層 | 顧客の費用(30 日間) | トラフィック TPM(組織レベル) |
|---|---|---|---|
| Gemini Pro モデル | Tier 1 | $10 ~$250 | 500,000 |
| Tier 2 | $250 ~$2,000 | 1,000,000 | |
| Tier 3 | $2,000 超 | 2,000,000 | |
| Gemini Flash モデルと Flash-Lite モデル | Tier 1 | $10 ~$250 | 2,000,000 |
| Tier 2 | $250 ~$2,000 | 4,000,000 | |
| Tier 3 | $2,000 超 | 10,000,000 |
モデル ファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様は、Gemini 2.5 Flash のベースライン スループットが 10,000,000 TPM で、Gemini 2.0 Flash のベースラインが 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各階層に個別の 1 分あたりのリクエスト数(RPM)の上限はありません。ただし、モデルとリージョンごとに 30,000 RPM のシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む対応するシステムレートの上限が適用されます。
エンタープライズ ユースケースでより高いスループットが必要な場合は、カスタム Tier の詳細についてアカウント チームにお問い合わせください。
使用量階層の仕組み
使用量階層は、対象となる Vertex AI サービスに対する組織の 30 日間の合計費用に基づいて自動的に決定されます。組織の費用が増加すると、システムによってスループットの高い上位の階層に昇格します。
費用の計算
この計算には、すべての Gemini モデル ファミリーの予測から Vertex AI CPU、GPU、TPU インスタンス、プロビジョニングされたスループットなどのコミットメント ベースの SKU まで、幅広いサービスが含まれます。
クリックすると、費用の計算に含まれる SKU の詳細を確認できます。
次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。
| カテゴリ | 含まれる SKU の説明 |
|---|---|
| Gemini モデル | すべての Gemini モデル ファミリー(例: 2.0、2.5、3.0(Pro、Flash、Lite バージョン): バッチ、長文コンテキスト、チューニング済み、「思考」バリエーションなど、すべてのモダリティ(テキスト、画像、音声、動画)の予測 |
| Gemini モデルの機能 | すべてのモダリティとモデル バージョンにわたる、キャッシュ保存、キャッシュ保存ストレージ、優先度階層などの機能に関連するすべての Gemini SKU |
| Vertex AI CPU | すべての CPU ベースのインスタンス ファミリー(C2、C3、E2、N1、N2、およびそれらのバリアント) |
| Vertex AI GPU | すべての NVIDIA GPU アクセラレータ インスタンス(A100、H100、H200、B200、L4、T4、V100、RTX シリーズ) |
| Vertex AI TPU | すべての TPU ベースのインスタンス(TPU-v5e、v6e) |
| 管理と手数料 | さまざまな Vertex AI 予測インスタンスに関連付けられているすべての「管理手数料」SKU |
| プロビジョンド スループット | プロビジョンド スループットのすべてのコミットメント ベースの SKU |
| その他のサービス | 「LLM Grounding for Gemini... with Google Search tool」などの専門サービス |
使用量ティアを確認する
組織の使用量階層を確認するには、 Google Cloud コンソールの Vertex AI ダッシュボードに移動します。
費用の確認
Vertex AI の費用を確認するには、Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。
Resource Exhausted(429)エラー
429 エラーが表示されても、固定割り当てに達したことを示すものではありません。これは、特定の共有リソースの一時的な競合が高いことを示します。この動的な環境では可用性がすぐに変化する可能性があるため、これらのエラーを処理するには指数バックオフ再試行戦略を実装することをおすすめします。再試行方法に加えて、グローバル エンドポイントを使用することをおすすめします。リージョン エンドポイント(us-central1 など)とは異なり、グローバル エンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョン プールにアクセスできるようになり、バーストの成功の可能性が大幅に高まり、429 エラーの可能性が低くなります。
最適な結果を得るには、グローバル エンドポイントの使用とトラフィック スムージングを組み合わせます。1 分あたりの平均使用量がベースライン スループットの上限内であっても、トラフィックが急増するとスロットリングが発生する可能性があるため、急激なトラフィックの増加を伴うリクエストの送信は避けてください。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、429 エラーの処理ガイドとエラーコード 429 をご覧ください。
サポートされているモデル
次の一般提供(GA)の Gemini モデルとその教師ありファインチューニング モデルは、使用量階層付きの標準従量課金をサポートしています。
次の GA Gemini モデルとその教師ありファインチューニング モデルも Standard PayGo をサポートしていますが、これらのモデルには使用量階層は適用されません。
なお、これらの階層はプレビュー モデルには適用されません。最も正確で最新の情報については、各モデルの公式ドキュメントをご覧ください。
スループットとパフォーマンスをモニタリングする
組織のリアルタイム トークン使用量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。
モデル エンドポイント トラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。
使用量階層は組織レベルで適用されます。組織内の複数のプロジェクトのスループットをグラフ化するようにオブザーバビリティ スコープを設定する方法については、マルチ プロジェクト クエリのオブザーバビリティ スコープを構成するをご覧ください。
次のステップ
- Vertex AI の割り当てと上限の詳細について、Vertex AI の割り当てと上限を確認する。
- Google Cloud の割り当てとシステムの上限の詳細を確認する。Cloud Quotas のドキュメントをご覧ください。