Standard PayGo

従量課金制（Standard PayGo）は、Vertex AI の一連の生成 AI モデルを利用するための課金オプションです。これには、Gemini や Vertex AI の Imagen モデルファミリーが含まれます。Standard PayGo では、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするために、Standard PayGo には使用量ティアシステムが組み込まれています。Vertex AI は、対象となる Vertex AI サービスの過去 30 日間の合計費用に基づいて、組織のベースラインスループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスの上限が高くなる上位のティアに自動的に昇格します。

使用量ティアとスループット

各 Standard PayGo 使用量ティアは、組織のトラフィックの予測可能なパフォーマンスの下限となる、1 分あたりのトークン数（TPM）で測定されるベースラインスループットを提供することを目的としています。スループットの上限は、グローバルエンドポイントに送信されるリクエストに基づいています。グローバルエンドポイントを使用すると、スループット容量のより大きなマルチリージョンプールにアクセスでき、リクエストを最も可用性の高いロケーションにルーティングしてパフォーマンスを最大化できるため、おすすめの方法です。

トラフィックは、ベースラインスループットの上限に厳密に制限されません。 Vertex AI では、ベストエフォートでこの上限を超えるトラフィックのバーストが可能です。ただし、 Vertex AI プラットフォーム全体で需要が高い期間は、この超過バーストトラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、このようなエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを平滑化することをおすすめします。リクエストを急激に送信することは避けてください。1 分あたりの平均使用量が上限を下回っていても、トラフィックが急増するとスロットリングが発生する可能性があります。 API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では、次のティアを利用できます。

モデルファミリー	ティア	お客様の費用（30 日間）	トラフィック TPM（組織レベル）
Gemini Pro モデル	Tier 1	$10 ～$250	500,000
	Tier 2	$250 ～$2,000	1,000,000
	Tier 3	$2,000 超	2,000,000
Gemini Flash モデルと Flash-Lite モデル	Tier 1	$10 ～$250	2,000,000
	Tier 2	$250 ～$2,000	4,000,000
	Tier 3	$2,000 超	10,000,000

モデルファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースラインスループットは 10,000,000 TPM で、Gemini 2.0 Flash の別途ベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットには影響しません。各ティアに個別のリクエスト数 /分（RPM）の上限はありません。ただし、モデルごと、リージョンごとに 30,000 RPMのシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズユースケースでより高いスループットが必要な場合は、カスタムティアの詳細についてアカウントチームにお問い合わせください。

使用量ティアの仕組み

使用量ティアは、組織の対象となる Vertex AI サービスの過去 30 日間の合計費用によって自動的に決定されます。組織の費用が増加すると、スループットの高い上位のティアに昇格します。

費用の計算

この計算には、すべての Gemini モデルファミリーの予測から、Vertex AI CPU、GPU、および TPU インスタンス、プロビジョンドスループットなどのコミットメントベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細が表示されます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ	含まれる SKU の説明
Gemini モデル	すべての Gemini モデルファミリー（Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など）。バッチ、長文コンテキスト、チューニング済み、「思考」のバリエーションなど、すべてのモダリティ（テキスト、画像、音声、動画）の予測
Gemini モデルの機能	すべてのモダリティとモデルバージョンで、キャッシュ、キャッシュストレージ、優先度ティアなどの機能に関連するすべての Gemini SKU
Vertex AI CPU	すべての CPU ベースのインスタンスファミリー（C2、 C3、E2、N1、N2、およびそのバリアントなど）でのオンライン予測とバッチ予測
Vertex AI GPU	すべての NVIDIA GPU アクセラレータインスタンス（A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど）でのオンライン予測とバッチ予測
Vertex AI TPU	すべての TPU ベースのインスタンス（TPU-v5e、 v6e など）でのオンライン予測とバッチ予測
管理と料金	さまざまな Vertex AI 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンドスループット	プロビジョンドスループットのすべてのコミットメントベースの SKU
その他のサービス	「Gemini の LLM グラウンディング... with Google 検索ツール」などの特殊なサービス

使用量ティアを確認する

組織の使用量ティアを確認するには、コンソールの Google Cloud Vertex AI ダッシュボードに移動します。

Vertex AI ダッシュボードに移動

費用を確認する

Vertex AI の費用を確認するには、コンソールの Cloud Billing に移動します。Google Cloud 費用は組織レベルで集計されます。

Cloud Billing に移動

リソース不足（429）エラー

429 エラーが表示された場合、固定割り当てに達したことを示しているわけではありません。特定の共有リソースに対する一時的な競合が高いことを示しています。この動的な環境では可用性がすぐに変化する可能性があるため、このようなエラーを処理するには、指数バックオフ再試行方法を実装することをおすすめします。再試行方法に加えて、グローバルエンドポイントを使用することをおすすめします。リージョンエンドポイント（us-central1 など）とは異なり、グローバルエンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョンプールにアクセスできるため、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバルエンドポイントの使用とトラフィックの平滑化を組み合わせます。 1 分あたりの平均使用量がベースラインスループットの上限内であっても、トラフィックが急増するとスロットリングが発生する可能性があるため、リクエストを急激に送信することは避けてください。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、 429 エラーの処理ガイドとエラーコード 429をご覧ください。

サポートされているモデル

次の一般提供（GA）の Gemini モデルとその教師ありファインチューニングモデルは使用量ティアを使用した Standard PayGo をサポートしています。

次の GA Gemini モデルとその教師ありファインチューニングモデルも Standard PayGo をサポートしていますが、これらのモデルには使用量ティアは適用されません。

これらのティアはプレビューモデルには適用されません。最新かつ正確な情報については、各モデルの公式ドキュメントをご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムのトークン消費量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデルエンドポイントトラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。

使用量ティアは組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、マルチプロジェクトクエリのオブザーバビリティスコープを構成するをご覧ください。

次のステップ

リソース

Vertex AI の割り当てと上限

プロダクト固有の制限を除く、Vertex AI プラットフォームに関連する割り当てと上限。

概要

Google Cloud の割り当て

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、ハードウェア、ソフトウェア、ネットワークコンポーネントなど、さまざまなリソースタイプに割り当てが適用される方法について説明します。