Standard PayGo(従量課金制)は、Gemini モデル ファミリーや Vertex AI の Imagen モデル ファミリーなど、Vertex AI の一連の生成 AI モデルを利用するための課金オプションです。 Standard PayGo では、事前の財務上のコミットメントを必要とせず、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードに対してより予測可能なパフォーマンスを提供するために、Standard PayGo には使用量ティア システムが組み込まれています。Vertex AI は、対象となる Vertex AI サービスの 30 日間のローリング支出の合計に基づいて、組織のベースライン スループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスの上限が高くなる上位のティアに自動的に昇格します。
使用量ティアとスループット
各 Standard PayGo 使用量ティアは、組織のトラフィックの予測可能なパフォーマンスの下限となる、1 分あたりのトークン数(TPM)で測定されるベースライン スループットを提供することを目的としています。スループットの上限は、グローバル エンドポイントに送信されるリクエストに基づいています。グローバル エンドポイントを使用すると、より大規模なマルチリージョン プールのスループット容量にアクセスでき、リクエストを最も可用性の高いロケーションにルーティングしてパフォーマンスを最大化できるため、おすすめの方法です。
トラフィックは、ベースライン スループットの上限に厳密に制限されるわけではありません。 Vertex AI では、ベストエフォートでこの上限を超えるトラフィックのバーストが可能です。ただし、Vertex AI プラットフォーム全体で需要が高い期間は、この超過バースト トラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、このようなエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを平滑化することをおすすめします。リクエストを急激に送信することは避けてください。1 分あたりの平均使用量が上限を下回っていても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。
Standard PayGo では、次のティアを利用できます。
| モデル ファミリー | 階層 | お客様の支出(30 日間) | トラフィック TPM(組織レベル) |
|---|---|---|---|
| Gemini Pro モデル | Tier 1 | $10~$250 | 500,000 |
| Tier 2 | $250 ~$2,000 | 1,000,000 | |
| Tier 3 | >$2,000 | 2,000,000 | |
| Gemini Flash モデルと Flash-Lite モデル | Tier 1 | $10~$250 | 2,000,000 |
| Tier 2 | $250 ~$2,000 | 4,000,000 | |
| Tier 3 | >$2,000 | 10,000,000 |
モデル ファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースライン スループットは 10,000,000 TPM で、Gemini 2.0 Flash のベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各ティアに個別のリクエスト数 / 分(RPM)の上限はありません。ただし、モデルごとにリージョンごとに 30,000 RPM のシステム上限が 適用されます。マルチモーダル入力を含む Gemini リクエストには、 画像、 音声、 動画、 ドキュメントを含む対応するシステムレートの上限が適用されます。
エンタープライズ ユースケースでより高いスループットが必要な場合は、カスタムティアの詳細について担当のアカウント チームにお問い合わせください。
使用量ティアの仕組み
使用量ティアは、組織の対象となる Vertex AI サービスの 30 日間のローリング支出の合計によって自動的に決定されます。組織の支出が増加すると、スループットの高い上位のティアに昇格します。
費用の計算
この計算には、すべての Gemini モデル ファミリーの予測から、Vertex AI CPU、GPU、TPU インスタンス、プロビジョンド スループットなどのコミットメント ベースの SKU まで、幅広いサービスが含まれます。
クリックすると、費用の計算に含まれる SKU の詳細を確認できます。
次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。
| カテゴリ | 含まれる SKU の説明 |
|---|---|
| Gemini モデル | すべてのモダリティ(テキスト、画像、音声、動画)の予測に対応するすべての Gemini モデル ファミリー(Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など)。バッチ、ロングコンテキスト、チューニング済み、「思考」のバリエーションを含む |
| Gemini モデルの機能 | すべてのモダリティとモデル バージョンで、キャッシュ、キャッシュ ストレージ、優先度ティアなどの機能に関連するすべての Gemini SKU |
| Vertex AI CPU | すべての CPU ベースのインスタンス ファミリー(C2、C3、E2、N1、N2 など)とそのバリアントでのオンライン予測とバッチ予測 |
| Vertex AI GPU | すべての NVIDIA GPU アクセラレータ インスタンス(A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど)でのオンライン予測とバッチ予測 |
| Vertex AI TPU | すべての TPU ベースのインスタンス(TPU-v5e、v6e など)でのオンライン予測とバッチ予測 |
| 管理と料金 | さまざまな Vertex AI 予測インスタンスに関連付けられたすべての「管理手数料」SKU |
| プロビジョンド スループット | プロビジョンド スループットのコミットメント ベースのすべての SKU |
| その他のサービス | 「Gemini の LLM グラウンディング... Google 検索ツール付き」などの特殊なサービス |
使用量ティアを確認する
組織の使用量ティアを確認するには、 コンソールの Google Cloud Vertex AI ダッシュボードに移動します。
費用を確認する
Vertex AI の費用を確認するには、コンソールの Cloud Billing に移動します。Google Cloud 費用は組織レベルで集計されます。
リソース不足(429)エラー
429 エラーが表示された場合、固定割り当てに達したことを示しているわけではありません。これは、特定の共有リソースに対する一時的な競合が高いことを示しています。この動的な環境では可用性がすぐに変化する可能性があるため、このようなエラーを処理するには、指数バックオフ再試行方法を実装することをおすすめします。再試行方法に加えて、グローバル
エンドポイントを使用することをおすすめします。リージョン エンドポイント(us-central1 など)とは異なり、グローバル エンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションはより大規模なマルチリージョン
プールの共有容量にアクセスできるため、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。
最適な結果を得るには、グローバル エンドポイントの使用とトラフィックの平滑化を組み合わせます。 1 分あたりの平均使用量がベースライン スループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があるため、リクエストを急激に送信することは避けてください。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足 エラーの処理方法の詳細については、 Vertex AI で復元力の高い LLM アプリケーションを構築し、429 エラーを減らす とエラーコード 429をご覧ください。
サポートされているモデル
次の 一般提供(GA) の Gemini モデルとその 教師ありファインチューニング モデルは 使用量ティアを使用した Standard PayGo をサポートしています。
次の GA Gemini モデルとその 教師ありファインチューニング モデルも Standard PayGo をサポートしていますが、 これらのモデルには使用量ティアは適用されません。
これらのティアはプレビュー モデルには適用されません。最新かつ正確な情報については、各モデルの公式ドキュメントをご覧ください。
スループットとパフォーマンスをモニタリングする
組織のリアルタイムのトークン消費量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。
モデル エンドポイント トラフィックのモニタリングの詳細については、 モデルをモニタリングするをご覧ください。
使用量ティアは組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、 マルチ プロジェクト クエリのオブザーバビリティ スコープを構成するをご覧ください。
次のステップ
Google Cloud の割り当て
Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、割り当てがハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用される方法について説明します。