Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

標準従量課金

標準従量課金制（Standard PayGo）は、Gemini Enterprise Agent Platform の一連の生成 AI モデルを利用するための使用量オプションです。標準の従量課金制では、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量ティアシステムが組み込まれています。Agent Platform は、過去 30 日間の対象となる Agent Platform サービスの合計費用に基づいて、組織のベースラインスループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスのしきい値が高くなる上位のティアに自動的に昇格します。

使用量階層とスループット

各 Standard PayGo 使用量階層は、組織のトラフィックの予測可能なパフォーマンスの下限として機能する、1 分あたりのトークン数（TPM）で測定されるベースラインスループットを提供することを目的としています。スループットの上限は、グローバルエンドポイントに送信されたリクエストに基づいています。グローバルエンドポイントを使用すると、より大規模なマルチリージョンスループット容量プールにアクセスでき、リクエストを最も可用性の高い場所にルーティングしてパフォーマンスを最大化できるため、グローバルエンドポイントを使用することをおすすめします。

トラフィックはベースラインスループットの上限に厳密に制限されません。Agent Platform では、ベストエフォートベースでこの上限を超えてトラフィックをバーストできます。ただし、Agent Platform プラットフォーム全体で需要が高い期間には、この超過バーストトラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、これらのエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを分散させることもおすすめします。急激な第 2 レベルのスパイクでリクエストを送信しない。平均使用量が上限を下回っていても、トラフィックが急増するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では次の階層を使用できます。

モデルファミリー	階層	顧客の費用（30 日間）	トラフィック TPM（組織レベル）
Gemini Pro モデル	Tier 1	$10～$250	500,000
	Tier 2	$250 ～$2,000	1,000,000
	Tier 3	$2,000 超	2,000,000
Gemini Flash モデルと Flash-Lite モデル	Tier 1	$10～$250	2,000,000
	Tier 2	$250 ～$2,000	4,000,000
	Tier 3	$2,000 超	10,000,000

モデルファミリーに表示されるスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースラインスループットは 10,000,000 TPM で、Gemini 2.0 Flash のベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各階層に個別の 1 分あたりのリクエスト数（RPM）の上限はありません。ただし、モデルとリージョンごとに 30,000 RPM のシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズユースケースでより高いスループットが必要な場合は、カスタム階層の詳細についてアカウントチームにお問い合わせください。

使用量階層の仕組み

使用量階層は、対象となる Gemini Enterprise Agent Platform サービスに対する組織の 30 日間の合計費用に基づいて自動的に決定されます。組織の費用が増加すると、スループットの高い上位の階層に昇格します。

費用の計算

この計算には、すべての Gemini モデルファミリーの予測から Gemini Enterprise Agent Platform の CPU、GPU、TPU インスタンス、プロビジョニングされたスループットなどのコミットメントベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細を確認できます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ	含まれる SKU の説明
Gemini モデル	すべてのモダリティ（テキスト、画像、音声、動画）の予測に対応するすべての Gemini モデルファミリー（Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など）。バッチ、長文コンテキスト、チューニング済み、「思考」のバリエーションを含む
Gemini モデルの機能	すべてのモダリティとモデルバージョンにわたる、キャッシュ保存、キャッシュ保存ストレージ、優先度階層などの機能に関連するすべての Gemini SKU
Agent Platform CPU	すべての CPU ベースのインスタンスファミリー（C2、C3、E2、N1、N2 など）でのオンライン予測とバッチ予測
Agent Platform GPU	すべての NVIDIA GPU アクセラレータインスタンス（A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど）でのオンライン予測とバッチ予測
Agent Platform TPU	すべての TPU ベースのインスタンス（TPU-v5e、v6e など）でのオンライン予測とバッチ予測
管理と手数料	さまざまな Agent Platform 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンドスループット	プロビジョンドスループットのすべてのコミットメントベースの SKU
その他のサービス	「LLM Grounding for Gemini... with Google Search tool」などの専門サービス

使用量ティアを確認する

組織の使用量階層を確認するには、 Google Cloud コンソールの Gemini Enterprise Agent Platform ダッシュボードに移動します。

費用の確認

Agent Platform の費用を確認するには、Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。

Cloud Billing に移動

Resource Exhausted（429）エラー

429: Resource Exhausted エラーを受け取った場合、固定割り当てに達したことを示すものではありません。これは、特定の共有リソースに対する一時的な競合が高いことを示しています。この動的環境では可用性が急速に変化する可能性があるため、これらのエラーを処理するには、指数バックオフ再試行戦略を実装することをおすすめします。再試行戦略に加えて、グローバルエンドポイントを使用することをおすすめします。リージョンエンドポイント（us-central1 など）とは異なり、グローバルエンドポイントは、その時点で最も利用可能な容量があるリージョンにリクエストを動的にルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョンプールにアクセスできるようになり、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバルエンドポイントの使用とトラフィックスムージングを組み合わせます。急激な秒単位のスパイクでリクエストを送信しないでください。平均使用量がベースラインスループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、429 エラーの処理ガイドとエラーコード 429 をご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムトークンの使用状況をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデルエンドポイントトラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。

使用量階層は組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティスコープを設定する方法については、マルチプロジェクトクエリのオブザーバビリティスコープを構成するをご覧ください。