Standard PayGo

従量課金制(Standard PayGo)は、Vertex AI の一連の生成 AI モデルを利用するための課金オプションです。これには、Gemini や Vertex AI の Imagen モデル ファミリーが含まれます。Standard PayGo では、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより 予測可能にするために、Standard PayGo には使用量ティア システムが組み込まれています。Vertex AI は、対象となる Vertex AI サービスの過去 30 日間の合計費用に基づいて、組織のベースライン スループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスの上限が高くなる上位のティアに自動的に昇格します。

使用量ティアとスループット

各 Standard PayGo 使用量ティアは、組織のトラフィックの予測可能なパフォーマンスの下限となる、1 分あたりのトークン数(TPM)で測定されるベースラインスループットを提供することを目的としています。スループットの上限は、 グローバルエンドポイントに送信されるリクエストに基づいています。グローバルエンドポイントを使用すると、スループット容量のより大きなマルチリージョン プールに アクセスでき、リクエストを最も可用性の高いロケーションに ルーティングしてパフォーマンスを 最大化できるため、おすすめの方法です。

トラフィックは、ベースライン スループットの上限に厳密に制限されません。 Vertex AI では、ベストエフォート でこの上限を超えるトラフィックのバーストが可能です。ただし、 Vertex AI プラットフォーム全体で需要が高い期間は、この超過バースト トラフィックのパフォーマンスの 変動が大きくなる可能性があります。パフォーマンスを最適化し、このようなエラーが発生する可能性 を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを平滑化することをおすすめします。リクエストを急激に送信することは避けてください。1 分あたりの平均使用量が上限を下回っていても、トラフィックが急増するとスロットリングが発生する可能性があります。 API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では、次のティアを利用できます。

モデル ファミリー ティア お客様の費用(30 日間) トラフィック TPM(組織レベル)
Gemini Pro モデル Tier 1 $10 ~$250 500,000
Tier 2 $250 ~$2,000 1,000,000
Tier 3 $2,000 超 2,000,000
Gemini Flash モデルと Flash-Lite モデル Tier 1 $10 ~$250 2,000,000
Tier 2 $250 ~$2,000 4,000,000
Tier 3 $2,000 超 10,000,000

モデル ファミリーに示されているスループットの上限は、 そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースライン スループットは 10,000,000 TPM で、Gemini 2.0 Flash の別途 ベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットには影響しません。各ティアに個別のリクエスト数 /分(RPM)の上限はありません。ただし、モデルごと、リージョンごとに 30,000 RPMのシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、 画像、 音声、 動画、 ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズ ユースケースでより高いスループットが必要な場合は、カスタムティアの詳細についてアカウント チームにお問い合わせください。

使用量ティアの仕組み

使用量ティアは、組織の対象となる Vertex AI サービスの過去 30 日間の合計費用 によって自動的に決定されます。組織の費用が増加すると、スループットの高い上位のティアに昇格します。

費用の計算

この計算には、すべての Gemini モデル ファミリーの予測から、Vertex AI CPU、GPU、および TPU インスタンス、プロビジョンド スループットなどの コミットメント ベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細が表示されます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ 含まれる SKU の説明
Gemini モデル すべての Gemini モデル ファミリー(Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など)。バッチ、長文コンテキスト、チューニング済み、「思考」のバリエーションなど、すべてのモダリティ(テキスト、画像、音声、動画)の予測
Gemini モデルの機能 すべてのモダリティとモデル バージョンで、キャッシュ、キャッシュ ストレージ、 優先度ティアなどの機能に関連するすべての Gemini SKU
Vertex AI CPU すべての CPU ベースのインスタンス ファミリー(C2、 C3、E2、N1、N2、およびそのバリアントなど)でのオンライン予測とバッチ予測
Vertex AI GPU すべての NVIDIA GPU アクセラレータ インスタンス (A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど)でのオンライン予測とバッチ予測
Vertex AI TPU すべての TPU ベースのインスタンス(TPU-v5e、 v6e など)でのオンライン予測とバッチ予測
管理と料金 さまざまな Vertex AI 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンド スループット プロビジョンド スループットのすべてのコミットメント ベースの SKU
その他のサービス 「Gemini の LLM グラウンディング... with Google 検索ツール」などの特殊なサービス

使用量ティアを確認する

組織の使用量ティアを確認するには、 コンソールの Google Cloud Vertex AI ダッシュボードに移動します。

Vertex AI ダッシュボードに移動

費用を確認する

Vertex AI の費用を確認するには、コンソールの Cloud Billing に移動します。Google Cloud 費用は組織レベルで集計されます。

Cloud Billing に移動

リソース不足(429)エラー

429 エラーが表示された場合、固定割り当てに達したことを示しているわけではありません。 特定の共有リソースに対する一時的な競合が高いことを示しています。この動的な環境では可用性がすぐに変化する可能性があるため、このようなエラーを処理するには、指数バックオフ再試行方法を実装することをおすすめします。再試行方法に加えて、グローバルエンドポイントを使用することをおすすめします。リージョン エンドポイント(us-central1 など)とは異なり、グローバル エンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的に ルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョンプールにアクセスできるため、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバル エンドポイントの使用とトラフィックの平滑化を組み合わせます。 1 分あたりの平均使用量がベースラインスループットの上限内であっても、トラフィックが急増するとスロットリングが発生する可能性があるため、リクエストを急激に送信することは避けてください。API 呼び出しをより 均等に分散すると、システムが負荷を予測どおりに管理し、全体的な パフォーマンスが向上します。リソース不足エラーの処理方法については、 429 エラーの処理ガイドエラーコード 429をご覧ください。

サポートされているモデル

次の 一般提供(GA) の Gemini モデルとその 教師ありファインチューニング モデルは 使用量ティアを使用した Standard PayGo をサポートしています。

次の GA Gemini モデルとその 教師ありファインチューニング モデルも Standard PayGo をサポートしていますが、 これらのモデルには使用量ティアは適用されません。

これらのティアはプレビュー モデルには適用されません。最新かつ正確な情報については、各モデルの公式ドキュメントをご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムのトークン消費量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデル エンドポイント トラフィックのモニタリングの詳細については、 モデルをモニタリングするをご覧ください。

使用量ティアは組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、 マルチプロジェクト クエリのオブザーバビリティ スコープを構成するをご覧ください。

次のステップ

リソース

プロダクト固有の制限を除く、Vertex AI プラットフォームに関連する割り当てと上限。

概要

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに割り当てが適用される方法について説明します。