Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

標準従量課金

標準従量課金制（Standard PayGo）は、Gemini モデルファミリーを含む Gemini Enterprise Agent Platform の生成 AI モデルスイートを利用するための消費オプションです。 Standard PayGo では、事前の財務上のコミットメントを必要とせずに、消費したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量ティアシステムが組み込まれています。Agent Platform は、過去 30 日間の対象となる Agent Platform サービスの合計費用に基づいて、組織のベースラインスループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスの上限が高くなる上位のティアに自動的に昇格します。 Standard PayGo よりも一貫したパフォーマンスを必要とするワークロードの場合は、 Priority PayGo を検討してください。専用の保証付き容量については、プロビジョンドスループットをご覧ください。

使用量ティアとスループット

各 Standard PayGo 使用量ティアは、組織のトラフィックの予測可能なパフォーマンスの下限となる、1 分あたりのトークン数（TPM）で測定されるベースラインスループットを提供することを目的としています。スループットの上限は、グローバルエンドポイントに送信されるリクエストに基づいています。グローバルエンドポイントを使用することをおすすめします。グローバルエンドポイントを使用すると、より大規模なマルチリージョンプールのスループット容量にアクセスでき、リクエストを最も可用性の高いロケーションにルーティングしてパフォーマンスを最大化できます。

トラフィックは、ベースラインスループットの上限に厳密に制限されるわけではありません。 Agent Platform では、ベストエフォートベースでこの上限を超えるトラフィックバーストが可能です。ただし、Agent Platform 全体で需要が高い期間には、この過剰なバーストトラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、このようなエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを平滑化することをおすすめします。リクエストを急激に送信することは避けてください。1 分あたりの平均使用量が上限を下回っていても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では、次のティアを利用できます。

モデルファミリー	階層	お客様の費用（30 日間）	トラフィック TPM（組織レベル）
Gemini Pro モデル	Tier 1	$10～$250	500,000
	Tier 2	$250 ～$2,000	1,000,000
	Tier 3	>$2,000	2,000,000
Gemini Flash モデルと Flash-Lite モデル	Tier 1	$10～$250	2,000,000
	Tier 2	$250 ～$2,000	4,000,000
	Tier 3	>$2,000	10,000,000

モデルファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースラインスループットは 10,000,000 TPM で、Gemini 2.0 Flash のベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各ティアに個別の 1 分あたりのリクエスト数（RPM）の上限はありません。ただし、モデルごと、リージョンごとに 30,000 RPMのシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズユースケースでより高いスループットが必要な場合は、カスタムティアの詳細についてアカウントチームにお問い合わせください。

使用量ティアの仕組み

使用量ティアは、過去 30 日間の対象となる Agent Platform サービスの合計費用によって自動的に決定されます。組織の費用が増加すると、スループットの高い上位のティアに昇格します。

費用の計算

この計算には、すべての Gemini モデルファミリーの予測から、Agent Platform CPU、GPU、TPU インスタンス、プロビジョンドスループットなどのコミットメントベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細が表示されます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ	含まれる SKU の説明
Gemini モデル	すべてのモダリティ（テキスト、画像、音声、動画）の予測に対応するすべての Gemini モデルファミリー（Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など）。バッチ、ロングコンテキスト、チューニング済み、「思考」のバリエーションを含む
Gemini モデルの機能	すべてのモダリティとモデルバージョンで、キャッシュ、キャッシュストレージ、優先ティアなどの機能に関連するすべての Gemini SKU
Agent Platform CPU	すべての CPU ベースのインスタンスファミリー（C2、C3、E2、N1、N2 など）とそのバリアントでのオンライン予測とバッチ予測
Agent Platform GPU	すべての NVIDIA GPU アクセラレータインスタンス（A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど）でのオンライン予測とバッチ予測
Agent Platform TPU	すべての TPU ベースのインスタンス（TPU-v5e、v6e など）でのオンライン予測とバッチ予測
管理と料金	さまざまな Agent Platform 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンドスループット	プロビジョンドスループットのすべてのコミットメントベースの SKU
その他のサービス	「Gemini の LLM Grounding... with Google 検索ツール」などの特殊なサービス

使用量ティアを確認する

組織の使用量ティアを確認するには、コンソールの Google Cloud Agent Platform ダッシュボードに移動します。ダッシュボードで使用量ティアを表示するには、プロジェクトに対する Agent Platform 閲覧者ロール（roles/aiplatform.viewer）と、請求先アカウントに対する請求先アカウント閲覧者ロール（roles/billing.viewer）が必要です。

Agent Platform ダッシュボードに移動

費用を確認する

Agent Platform の費用を確認するには、 Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。

Cloud Billing に移動

リソース不足（429）エラー

429 エラーが表示された場合、固定割り当てに達したことを示しているわけではありません。特定の共有リソースに対する一時的な競合が高いことを示しています。この動的な環境では可用性がすぐに変化する可能性があるため、このようなエラーを処理するには、指数バックオフ再試行方法を実装することをおすすめします。再試行方法に加えて、グローバルエンドポイントを使用することをおすすめします。リージョンエンドポイント（us-central1 など）とは異なり、グローバルエンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションはより大規模なマルチリージョンプールの共有容量にアクセスできるため、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバルエンドポイントの使用とトラフィックの平滑化を組み合わせます。 1 分あたりの平均使用量がベースラインスループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があるため、リクエストを急激に送信することは避けてください。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、復元力の高い LLM アプリケーションを構築して 429 エラーを減らすとエラーコード 429をご覧ください。

サポートされているモデル

次の一般提供（GA）の Gemini モデルとその教師ありファインチューニングモデルは使用量ティアを含む Standard PayGo をサポートしています。

クリックして、サポートされているモデルを開く

次の GA Gemini モデルとその教師ありファインチューニングモデルも Standard PayGo をサポートしていますが、これらのモデルには使用量ティアは適用されません。

Gemini 2.5 Flash Image

これらのティアはプレビューモデルには適用されません。最新かつ正確な情報については、各モデルの公式ドキュメントをご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムのトークン消費量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデルエンドポイントトラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。

使用量ティアは組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、マルチプロジェクトクエリのオブザーバビリティスコープを構成するをご覧ください。

次のステップ

リソース

Agent Platform の割り当てと上限

プロダクト固有の制限を除く、Agent Platform に関連する割り当てと上限。

概要

Google Cloud の割り当て

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、ハードウェア、ソフトウェア、ネットワークコンポーネントなど、さまざまなリソースタイプに割り当てが適用される方法について説明します。