Standard PayGo

標準従量課金制（標準 PayGo）は、Vertex AI の生成 AI モデルのスイート（Vertex AI の Gemini モデルファミリーや Imagen モデルファミリーなど）を利用するための使用量オプションです。Standard PayGo では、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量階層システムが組み込まれています。Vertex AI は、過去 30 日間の対象となる Vertex AI サービスの合計費用に基づいて、組織のベースラインスループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスのしきい値が高くなる上位の階層に自動的に昇格します。

使用量階層とスループット

各 Standard PayGo 使用量階層は、組織のトラフィックの予測可能なパフォーマンスの下限として機能するベースラインスループット（トークン / 分（TPM）で測定）を提供することを目的としています。スループットの上限は、グローバルエンドポイントに送信されるリクエストに基づいています。グローバルエンドポイントを使用すると、スループット容量のより大きなマルチリージョンプールにアクセスでき、可用性が最も高いロケーションにリクエストをルーティングしてパフォーマンスを最大化できるため、ベストプラクティスです。

トラフィックはベースラインスループットの上限に厳密に制限されません。Vertex AI では、ベストエフォートベースでこの上限を超えてトラフィックをバーストできます。ただし、Vertex AI プラットフォーム全体で需要が高い期間には、この超過バーストトラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、これらのエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを分散することをおすすめします。第 2 レベルの急激なスパイクでリクエストを送信しないようにします。トラフィックが急増すると、1 分あたりの平均使用量が上限を下回っていても、スロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では次の階層を使用できます。

モデルファミリー	階層	顧客の費用（30 日間）	トラフィック TPM（組織レベル）
Gemini Pro モデル	Tier 1	$10 ～$250	500,000
	Tier 2	$250 ～$2,000	1,000,000
	Tier 3	$2,000 超	2,000,000
Gemini Flash モデルと Flash-Lite モデル	Tier 1	$10 ～$250	2,000,000
	Tier 2	$250 ～$2,000	4,000,000
	Tier 3	$2,000 超	10,000,000

モデルファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様は、Gemini 2.5 Flash のベースラインスループットが 10,000,000 TPM で、Gemini 2.0 Flash のベースラインが 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各階層に個別の 1 分あたりのリクエスト数（RPM）の上限はありません。ただし、モデルとリージョンごとに 30,000 RPM のシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズユースケースでより高いスループットが必要な場合は、カスタム Tier の詳細についてアカウントチームにお問い合わせください。

使用量階層の仕組み

使用量階層は、対象となる Vertex AI サービスに対する組織の 30 日間の合計費用に基づいて自動的に決定されます。組織の費用が増加すると、システムによってスループットの高い上位の階層に昇格します。

費用の計算

この計算には、すべての Gemini モデルファミリーの予測から Vertex AI CPU、GPU、TPU インスタンスまで、幅広いサービスが含まれます。また、プロビジョニングされたスループットなどのコミットメントベースの SKU も含まれます。

クリックすると、費用の計算に含まれる SKU の詳細を確認できます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ	含まれる SKU の説明
Gemini モデル	すべての Gemini モデルファミリー（例: 2.0、2.5、3.0（Pro、Flash、Lite バージョン）: バッチ、長文コンテキスト、チューニング済み、「思考」バリエーションなど、すべてのモダリティ（テキスト、画像、音声、動画）の予測
Gemini モデルの機能	すべてのモダリティとモデルバージョンにわたる、キャッシュ保存、キャッシュ保存ストレージ、優先度階層などの機能に関連するすべての Gemini SKU
Vertex AI CPU	すべての CPU ベースのインスタンスファミリー（C2、C3、E2、N1、N2、およびそれらのバリアント）
Vertex AI GPU	すべての NVIDIA GPU アクセラレータインスタンス（A100、H100、H200、B200、L4、T4、V100、RTX シリーズ）
Vertex AI TPU	すべての TPU ベースのインスタンス（TPU-v5e、v6e）
管理と手数料	さまざまな Vertex AI 予測インスタンスに関連付けられているすべての「管理手数料」SKU
プロビジョンドスループット	プロビジョンドスループットのすべてのコミットメントベースの SKU
その他のサービス	「LLM Grounding for Gemini... with Google Search tool」などの専門サービス

使用量ティアを確認する

組織の使用量階層を確認するには、 Google Cloud コンソールの Vertex AI ダッシュボードに移動します。

Vertex AI ダッシュボードに移動

費用の確認

Vertex AI の費用を確認するには、Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。

Cloud Billing に移動

Resource Exhausted（429）エラー

429 エラーが表示されても、固定割り当てに達したことを示すものではありません。これは、特定の共有リソースの一時的な競合が高いことを示します。この動的な環境では可用性がすぐに変化する可能性があるため、これらのエラーを処理するために指数バックオフ再試行戦略を実装することをおすすめします。再試行戦略に加えて、グローバルエンドポイントを使用することをおすすめします。リージョンエンドポイント（us-central1 など）とは異なり、グローバルエンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョンプールにアクセスできるようになり、バーストの成功の可能性が大幅に高まり、429 エラーの可能性が低くなります。

最適な結果を得るには、グローバルエンドポイントの使用とトラフィックスムージングを組み合わせます。1 秒単位で急激にリクエストを送信しないでください。平均使用量がベースラインスループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、429 エラーの処理ガイドとエラーコード 429 をご覧ください。

サポートされているモデル

次の一般提供（GA）の Gemini モデルとその教師ありファインチューニングモデルは、使用量階層付きの Standard PayGo をサポートしています。

次の GA Gemini モデルとその教師ありファインチューニングモデルも Standard PayGo をサポートしていますが、これらのモデルには使用量階層は適用されません。

なお、これらの階層はプレビューモデルには適用されません。最も正確で最新の情報については、各モデルの公式ドキュメントをご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムトークンの使用状況をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデルエンドポイントトラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。

使用量階層は組織レベルで適用されます。組織内の複数のプロジェクトのスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、マルチプロジェクトクエリのオブザーバビリティスコープを構成するをご覧ください。

次のステップ

リソース

Vertex AI の割り当てと上限

プロダクト固有の制限を除く、Vertex AI プラットフォームに関連する割り当てと上限。

概要

Google Cloud の割り当て

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、割り当てがハードウェア、ソフトウェア、ネットワークコンポーネントなど、さまざまなリソースタイプに適用される方法について説明します。