標準従量課金

標準従量課金制(Standard PayGo)は、Gemini Enterprise Agent Platform の一連の生成 AI モデルを利用するための使用量オプションです。標準の従量課金制では、事前の財務上のコミットメントを必要とせずに、使用したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量ティアシステムが組み込まれています。Agent Platform は、過去 30 日間の対象となる Agent Platform サービスの合計費用に基づいて、組織のベースライン スループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスのしきい値が高くなる上位のティアに自動的に昇格します。

使用量階層とスループット

各 Standard PayGo 使用量階層は、組織のトラフィックの予測可能なパフォーマンスの下限として機能する、1 分あたりのトークン数(TPM)で測定されるベースライン スループットを提供することを目的としています。スループットの上限は、グローバル エンドポイントに送信されたリクエストに基づいています。グローバル エンドポイントを使用すると、より大規模なマルチリージョン スループット容量プールにアクセスでき、リクエストを最も可用性の高い場所にルーティングしてパフォーマンスを最大化できるため、グローバル エンドポイントを使用することをおすすめします。

トラフィックはベースライン スループットの上限に厳密に制限されません。Agent Platform では、ベスト エフォート ベースでこの上限を超えてトラフィックをバーストできます。ただし、Agent Platform プラットフォーム全体で需要が高い期間には、この超過バースト トラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、これらのエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを分散させることもおすすめします。急激な第 2 レベルのスパイクでリクエストを送信しない。平均使用量が上限を下回っていても、トラフィックが急増するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では次の階層を使用できます。

モデル ファミリー 階層 顧客の費用(30 日間) トラフィック TPM(組織レベル)
Gemini Pro モデル Tier 1 $10~$250 500,000
Tier 2 $250 ~$2,000 1,000,000
Tier 3 $2,000 超 2,000,000
Gemini Flash モデルと Flash-Lite モデル Tier 1 $10~$250 2,000,000
Tier 2 $250 ~$2,000 4,000,000
Tier 3 $2,000 超 10,000,000

モデル ファミリーに表示されるスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースライン スループットは 10,000,000 TPM で、Gemini 2.0 Flash のベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各階層に個別の 1 分あたりのリクエスト数(RPM)の上限はありません。ただし、モデルとリージョンごとに 30,000 RPM のシステム上限が適用されます。マルチモーダル入力を含む Gemini リクエストには、画像音声動画ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズ ユースケースでより高いスループットが必要な場合は、カスタム階層の詳細についてアカウント チームにお問い合わせください。

使用量階層の仕組み

使用量階層は、対象となる Gemini Enterprise Agent Platform サービスに対する組織の 30 日間の合計費用に基づいて自動的に決定されます。組織の費用が増加すると、スループットの高い上位の階層に昇格します。

費用の計算

この計算には、すべての Gemini モデル ファミリーの予測から Gemini Enterprise Agent Platform の CPU、GPU、TPU インスタンス、プロビジョニングされたスループットなどのコミットメント ベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細を確認できます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ 含まれる SKU の説明
Gemini モデル すべてのモダリティ(テキスト、画像、音声、動画)の予測に対応するすべての Gemini モデル ファミリー(Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など)。バッチ、長文コンテキスト、チューニング済み、「思考」のバリエーションを含む
Gemini モデルの機能 すべてのモダリティとモデル バージョンにわたる、キャッシュ保存、キャッシュ保存ストレージ、優先度階層などの機能に関連するすべての Gemini SKU
Agent Platform CPU すべての CPU ベースのインスタンス ファミリー(C2、C3、E2、N1、N2 など)でのオンライン予測とバッチ予測
Agent Platform GPU すべての NVIDIA GPU アクセラレータ インスタンス(A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど)でのオンライン予測とバッチ予測
Agent Platform TPU すべての TPU ベースのインスタンス(TPU-v5e、v6e など)でのオンライン予測とバッチ予測
管理と手数料 さまざまな Agent Platform 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンド スループット プロビジョンド スループットのすべてのコミットメント ベースの SKU
その他のサービス 「LLM Grounding for Gemini... with Google Search tool」などの専門サービス

使用量ティアを確認する

組織の使用量階層を確認するには、 Google Cloud コンソールの Gemini Enterprise Agent Platform ダッシュボードに移動します。

費用の確認

Agent Platform の費用を確認するには、Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。

Cloud Billing に移動

Resource Exhausted(429)エラー

429: Resource Exhausted エラーを受け取った場合、固定割り当てに達したことを示すものではありません。これは、特定の共有リソースに対する一時的な競合が高いことを示しています。この動的環境では可用性が急速に変化する可能性があるため、これらのエラーを処理するには、指数バックオフ再試行戦略を実装することをおすすめします。再試行戦略に加えて、グローバル エンドポイントを使用することをおすすめします。リージョン エンドポイント(us-central1 など)とは異なり、グローバル エンドポイントは、その時点で最も利用可能な容量があるリージョンにリクエストを動的にルーティングします。これにより、アプリケーションは共有容量のより大きなマルチリージョン プールにアクセスできるようになり、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバル エンドポイントの使用とトラフィック スムージングを組み合わせます。急激な秒単位のスパイクでリクエストを送信しないでください。平均使用量がベースライン スループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足エラーの処理方法については、429 エラーの処理ガイドエラーコード 429 をご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイム トークンの使用状況をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデル エンドポイント トラフィックのモニタリングの詳細については、モデルをモニタリングするをご覧ください。

使用量階層は組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティ スコープを設定する方法については、マルチ プロジェクト クエリのオブザーバビリティ スコープを構成するをご覧ください。