標準従量課金

標準従量課金制(Standard PayGo)は、Gemini モデル ファミリーを含む Gemini Enterprise Agent Platform の生成 AI モデル スイートを利用するための消費オプションです。 Standard PayGo では、事前の財務上のコミットメントを必要とせずに、消費したリソースに対してのみ料金を支払うことができます。スケーラブルなワークロードのパフォーマンスをより予測可能にするため、Standard PayGo には使用量ティア システムが組み込まれています。Agent Platform は、過去 30 日間の対象となる Agent Platform サービスの合計費用に基づいて、組織のベースライン スループット容量を動的に調整します。組織の費用が増加すると、共有リソースへのアクセスが増え、パフォーマンスの上限が高くなる上位のティアに自動的に昇格します。 Standard PayGo よりも一貫したパフォーマンスを必要とするワークロードの場合は、 Priority PayGo を検討してください。専用の 保証付き容量については、 プロビジョンド スループットをご覧ください。

使用量ティアとスループット

各 Standard PayGo 使用量ティアは、組織のトラフィックの予測可能なパフォーマンスの下限となる、1 分あたりのトークン数(TPM)で測定されるベースライン スループットを提供することを目的としています。スループットの上限は、グローバル エンドポイントに送信されるリクエストに基づいています。グローバル エンドポイントを使用することをおすすめします。グローバル エンドポイントを使用すると、より大規模なマルチリージョン プールのスループット容量にアクセスでき、リクエストを最も可用性の高いロケーションにルーティングしてパフォーマンスを最大化できます。

トラフィックは、ベースライン スループットの上限に厳密に制限されるわけではありません。 Agent Platform では、ベスト エフォート ベースでこの上限を超えるトラフィック バーストが可能です。ただし、Agent Platform 全体で需要が高い期間には、この過剰なバースト トラフィックのパフォーマンスの変動が大きくなる可能性があります。パフォーマンスを最適化し、このようなエラーが発生する可能性を最小限に抑えるには、1 分間にできるだけ均等にトラフィックを平滑化することをおすすめします。リクエストを急激に送信することは避けてください。1 分あたりの平均使用量が上限を下回っていても、トラフィックが急激に増加するとスロットリングが発生する可能性があります。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。

Standard PayGo では、次のティアを利用できます。

モデル ファミリー 階層 お客様の費用(30 日間) トラフィック TPM(組織レベル)
Gemini Pro モデル Tier 1 $10~$250 500,000
Tier 2 $250 ~$2,000 1,000,000
Tier 3 >$2,000 2,000,000
Gemini Flash モデルと Flash-Lite モデル Tier 1 $10~$250 2,000,000
Tier 2 $250 ~$2,000 4,000,000
Tier 3 >$2,000 10,000,000

モデル ファミリーに示されているスループットの上限は、そのファミリー内の各モデルに個別に適用されます。たとえば、Tier 3 のお客様の場合、Gemini 2.5 Flash のベースライン スループットは 10,000,000 TPM で、Gemini 2.0 Flash のベースラインは 10,000,000 TPM です。これらの上限のいずれかに対する使用量は、他のモデルのスループットに影響しません。各ティアに個別の 1 分あたりのリクエスト数(RPM)の上限はありません。ただし、モデルごと、リージョンごとに 30,000 RPMのシステム上限が 適用されます。マルチモーダル入力を含む Gemini リクエストには、 画像、 音声、 動画、 ドキュメントを含む対応するシステムレートの上限が適用されます。

エンタープライズ ユースケースでより高いスループットが必要な場合は、カスタムティアの詳細についてアカウント チームにお問い合わせください。

使用量ティアの仕組み

使用量ティアは、過去 30 日間の対象となる Agent Platform サービスの合計費用によって自動的に決定されます。組織の費用が増加すると、スループットの高い上位のティアに昇格します。

費用の計算

この計算には、すべての Gemini モデル ファミリーの予測から、Agent Platform CPU、GPU、TPU インスタンス、プロビジョンド スループットなどのコミットメント ベースの SKU まで、幅広いサービスが含まれます。

クリックすると、費用の計算に含まれる SKU の詳細が表示されます。

次の表に、合計費用の計算に含まれる Google Cloud SKU のカテゴリを示します。

カテゴリ 含まれる SKU の説明
Gemini モデル すべてのモダリティ(テキスト、画像、音声、動画)の予測に対応するすべての Gemini モデル ファミリー(Pro、Flash、Lite バージョンの 2.0、2.5、3.0 など)。バッチ、ロングコンテキスト、チューニング済み、「思考」のバリエーションを含む
Gemini モデルの機能 すべてのモダリティとモデル バージョンで、キャッシュ、キャッシュ ストレージ、優先ティアなどの機能に関連するすべての Gemini SKU
Agent Platform CPU すべての CPU ベースのインスタンス ファミリー(C2、C3、E2、N1、N2 など)とそのバリアントでのオンライン予測とバッチ予測
Agent Platform GPU すべての NVIDIA GPU アクセラレータ インスタンス(A100、H100、H200、B200、L4、T4、V100、RTX シリーズなど)でのオンライン予測とバッチ予測
Agent Platform TPU すべての TPU ベースのインスタンス(TPU-v5e、v6e など)でのオンライン予測とバッチ予測
管理と料金 さまざまな Agent Platform 予測インスタンスに関連付けられたすべての「管理手数料」SKU
プロビジョンド スループット プロビジョンド スループットのすべてのコミットメント ベースの SKU
その他のサービス 「Gemini の LLM Grounding... with Google 検索ツール」などの特殊なサービス

使用量ティアを確認する

組織の使用量ティアを確認するには、 コンソールの Google Cloud Agent Platform ダッシュボードに移動します。 ダッシュボードで使用量ティアを表示するには、プロジェクトに対する Agent Platform 閲覧者ロールroles/aiplatform.viewer)と、請求先アカウントに対する 請求先アカウント閲覧者ロールroles/billing.viewer)が必要です。

Agent Platform ダッシュボードに移動

費用を確認する

Agent Platform の費用を確認するには、 Google Cloud コンソールの Cloud Billing に移動します。費用は組織レベルで集計されます。

Cloud Billing に移動

リソース不足(429)エラー

429 エラーが表示された場合、固定割り当てに達したことを示しているわけではありません。特定の共有リソースに対する一時的な競合が高いことを示しています。この動的な環境では可用性がすぐに変化する可能性があるため、このようなエラーを処理するには、指数バックオフ再試行方法を実装することをおすすめします。再試行方法に加えて、グローバル エンドポイントを使用することをおすすめします。リージョン エンドポイント(us-central1 など)とは異なり、グローバル エンドポイントは、その時点で最も利用可能な容量を持つリージョンにリクエストを動的にルーティングします。これにより、アプリケーションはより大規模なマルチリージョン プールの共有容量にアクセスできるため、バーストが成功する可能性が大幅に高まり、429 エラーが発生する可能性が低くなります。

最適な結果を得るには、グローバル エンドポイントの使用とトラフィックの平滑化を組み合わせます。 1 分あたりの平均使用量がベースライン スループットの上限内であっても、トラフィックが急激に増加するとスロットリングが発生する可能性があるため、リクエストを急激に送信することは避けてください。API 呼び出しをより均等に分散すると、システムが負荷を予測どおりに管理し、全体的なパフォーマンスが向上します。リソース不足 エラーの処理方法については、 復元力の高い LLM アプリケーションを構築して 429 エラーを減らすエラーコード 429をご覧ください。

サポートされているモデル

次の 一般提供(GA) の Gemini モデルとその 教師ありファインチューニング モデルは 使用量ティアを含む Standard PayGo をサポートしています。

クリックして、サポートされているモデルを開く

次の GA Gemini モデルとその 教師ありファインチューニング モデルも Standard PayGo をサポートしていますが、 これらのモデルには使用量ティアは適用されません。

これらのティアはプレビュー モデルには適用されません。最新かつ正確な情報については、各モデルの公式ドキュメントをご覧ください。

スループットとパフォーマンスをモニタリングする

組織のリアルタイムのトークン消費量をモニタリングするには、Cloud Monitoring の Metrics Explorer に移動します。

Metrics Explorer に移動

モデル エンドポイント トラフィックのモニタリングの詳細については、 モデルをモニタリングするをご覧ください。

使用量ティアは組織レベルで適用されます。組織内の複数のプロジェクトでスループットをグラフ化するようにオブザーバビリティ スコープを設定する方法については、マルチ プロジェクト クエリのオブザーバビリティ スコープを構成するをご覧ください。

次のステップ

リソース

プロダクト固有の制限を除く、Agent Platform に関連する割り当てと上限。

概要

Google Cloud が Google Cloud プロジェクトで使用できるリソースの量を制限する方法と、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに割り当てが適用される方法について説明します。