Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用オプション

Gemini Enterprise Agent Platform では、生成モデルを使用する際にコンピューティングリソースを取得して使用するための複数のオプションが用意されています。これらの消費オプションは、初期プロトタイピングから本番環境へのデプロイまで、あらゆるワークロードのニーズを満たすように設計されています。適切なオプションを選択することは、パフォーマンス、信頼性、費用のバランスを取るうえで非常に重要です。

このガイドでは、使用可能な消費オプションについて詳しく説明し、特定のワークロード要件にマッピングする方法と、レイテンシ、可用性、費用を最適化するための戦略について説明します。

使用オプション

Gemini Enterprise Agent Platform には、さまざまなトラフィックパターンとビジネスニーズに合わせて調整された 5 つの消費オプションが用意されています。

使用オプション		説明	推奨用途	料金
プロビジョンドスループット		コミットメント期間のスループットを保証する	SLA が必要な、重要で安定した常時稼働のワークロード	コミットメントベース（1 週間、1 か月、3 か月、1 年間のプランで利用可能）
従量制	Standard	前払いのコミットメントなしの柔軟な従量課金制オプション	トラフィック需要の変動に対応できる柔軟性を備えた、日常的なユースケース向けのデフォルトオプション	トークン単位（標準レート）
	優先度	PayGo の柔軟性を維持しながら、優先処理によって信頼性を向上	Standard PayGo よりも高い信頼性と上限を必要とする重要なワークロード	トークン単位（プレミアムレート）
	フレックス	レイテンシ許容ワークロード向けの費用対効果の高いオプション	応答時間が遅く、スロットリングが高くても、低価格で実行できるタスク	トークン単位（割引料金）
バッチ推論		大量の非同期処理向けに最適化されたコスト	結果がより長い期間内に必要な大規模なジョブ	トークン単位（割引料金）

料金については、料金ページをご覧ください。

ワークロードに適したオプションを選択する

以降のセクションでは、ワークロードの具体的な要件と特性に基づいて最適な使用オプションを選択するためのガイダンスを提供します。

レイテンシの影響を受けやすいワークロード

組織は、適切な消費モデルを選択する際に、信頼性と費用のバランスを取る必要があります。プロビジョンドスループットは信頼性が最も高いですが、トラフィックが急増すると使用率が低下する可能性があります。同様に、従量課金制は最大限の柔軟性を提供しますが、サービス品質を保証することはできません。次のセクションでは、これらのメカニズムを最適に組み合わせて最適な結果を得る方法について説明します。

プロビジョンドスループットでベースライントラフィックをカバーします。これにより、予約済み容量の利用率が向上し、トラフィックのコアの信頼性を保証しながら、経済的な運用が可能になります。これを行う手順は以下のとおりです。
- 分単位または秒単位のトラフィックパターンを分析します。
- プロビジョンドスループットでカバーするトラフィック量を決定します。最優先のトラフィックをカバーする必要があります。
Standard または Priority PayGo でスピルオーバートラフィックを管理する: デフォルトでは、プロビジョンドスループットのベースラインを超えるトラフィック（スピルオーバートラフィック）は、Standard PayGo によって処理されます。TPM 上限を超えるリクエストのパフォーマンスのばらつきが大きい場合は、最適化によってばらつきを軽減できます。Priority PayGo を使用すると、ランプアップの上限を条件として、プレミアム価格で信頼性の高いパフォーマンスを実現できます。

非同期の大規模ワークロード

リクエストのバックログが大きい場合（要約するドキュメントが数百万件ある場合など）、レイテンシが直ちに問題にならない場合は、リクエストを JSON ファイルまたはスプレッドシートに作成して、バッチジョブを送信する必要があります。これは、画像ラベル付け、ドキュメントの一括処理、過去のデータに対する感情分析などのユースケースに役立ちます。

これは、大量の推論に最も費用対効果の高いオプションです。

レイテンシ許容型でコスト重視のワークロード

アプリケーションがレスポンスを待機できるが、コスト削減が優先されるリクエストを処理する必要がある場合は、Flex PayGo を使用する必要があります。Flex PayGo では、即時実行を必要としないリクエストに対して、トークンあたりの料金が削減されます。このオプションは、オフライン分析、データアノテーション、プロダクトカタログの作成、翻訳などのユースケースに役立ちます。

最適化戦略

消費モデルを選択したら、次の戦略を使用して、レイテンシ、可用性、費用をさらに最適化します。

レイテンシ

インタラクティブなアプリケーションを構築する場合、レイテンシはユーザーエクスペリエンスにおいて重要な役割を果たします。レイテンシとは、モデルが入力プロンプトを処理し、対応する出力レスポンスを生成するまでにかかる時間のことです。モデルのレイテンシを調べる際は、次の点を考慮してください。

最初のトークンまでの時間（TTFT）: モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間。TTFT は、即時のフィードバックを提供することが不可欠なストリーミングアプリケーションで特に重要です。
最後のトークンまでの時間（TTLT）: モデルがプロンプトを処理してレスポンスを生成するまでにかかる全体的な時間。

レイテンシを最適化するには:

ユースケースに適切なモデルを選択する: Gemini Enterprise Agent Platform には、さまざまな機能とパフォーマンス特性を備えた多様なモデルが用意されています。速度と出力の品質に関する要件を慎重に評価し、ユースケースに最適なモデルを選択します。利用可能なモデルの一覧については、Model Garden をご覧ください。
プロンプトのサイズを小さくする: 不要な詳細や冗長性のない、意図を効果的に伝える明確で簡潔なプロンプトを作成します。プロンプトを短くすると、最初のトークンまでの時間が短縮されます。
出力トークンを制限する:
- システム指示を使用して、レスポンスの長さを制御します。簡潔な回答を提供するようモデルに指示するか、出力の文または段落を特定の数に制限します。この戦略により、最後のトークンまでの時間を短縮できます。
- 上限を設定して出力を制限します。max_output_tokens パラメータを使用して、生成されるレスポンスの長さに上限を設定し、出力が長くなりすぎないようにします。レイテンシは生成されるトークンの数に比例します。生成されるトークンの数が少ないほど、レスポンスが速くなります。ただし、文の途中でレスポンスが途切れる可能性があるため、注意が必要です。
プロビジョンドスループットを使用する: 最も一貫したパフォーマンスを得るには、プロビジョンドスループットを使用します。これにより、トラフィックが多いときに PayGo モデルで発生する可能性があるコールドスタートやキューイングによる変動がなくなります。
思考予算を制限する: 思考をサポートするモデルを使用している場合は、思考予算を減らすことでレイテンシを短縮できます。モデルが回答前に生成する内部推論トークンを制限することで、処理時間全体を短縮できます。ただし、回答の品質が低下しないように、タスクの複雑さに応じて十分な予算を確保する必要があります。
レスポンスにストリーミングを使用する: ストリーミングにより、応答性が向上し、よりインタラクティブなユーザーエクスペリエンスを実現できます。ストリーミングでは、モデルは完全な出力を生成する前にレスポンスを送信し始めます。これにより、出力のリアルタイム処理が可能になり、ユーザーインターフェースをすぐに更新して、他のタスクを同時に実行できます。

対象

可用性を最適化するには:

再試行ロジックを実装する: 特に Standard PayGo を使用する場合は、429 エラーに対して指数バックオフを実装します。
ハイブリッド実装を使用する: ワークロードに適したオプションを選択するで説明したように、重要な本番環境アプリに PayGo のみを使用しないでください。プロビジョンドスループットと PayGo を組み合わせることで、リソース不足（429 エラー）に対する保証が最大になります。
プロビジョンドスループットの割り当てを管理する: TPM の使用量を定期的にモニタリングし、トラフィックの急増が予想されるイベント（プロダクトのリリースなど）の前に PT GSU を増やします。アラートポリシーを使用して、モニタリングを自動化できます。
グローバルエンドポイントを使用する: グローバルエンドポイントを使用して、Google のグローバル容量プールを活用し、リージョン容量の制約によるスロットリングを最小限に抑えます。
可能な限りトラフィックを平滑化してスパイクを減らす: PayGo のトラフィック率（TPM）が高いほど、スロットリング率が高くなる傾向があります。
トラフィックをオフピーク時にシフトする: 使用量のモデルは、一般的に日中のパターンに従います。ワークロードをオフピーク時や週末にシフトすると、可用性を大幅に向上させることができます。

費用

費用を最適化するには:

プロビジョンドスループットを適切なサイズにする: 一般に、ピーク時の需要をカバーするために PT をプロビジョニングする必要はありません。ピーク時の需要に合わせてプロビジョニングすると、全体的な使用率が低下し、費用が増加します。リスク許容度に応じてトラフィックの特定のパーセンタイルをカバーし、残りのトラフィックは Standard PayGo と Priority PayGo で処理するようにします。
長期のプロビジョンドスループットを購入する: 1 年間の PT コミットメントの料金は、1 か月間の PT と比較して 26% 割引になるため、大幅なコスト削減につながります。購入したプロビジョンドスループット GSU に関連付けられているモデルはいつでも変更できるため、最新のモデル機能を活用できます。
Flex PayGo を使用する: レイテンシの影響を受けないパイプラインの一部（バックグラウンドの要約、データ抽出など）を特定し、Flex PayGo に移動して、費用を約 50% 削減します。
バッチ処理を使用する: 大規模なデータセットの処理などの非同期ジョブの場合、バッチ処理は Standard PayGo を使用してリクエストを順番に処理するよりも大幅に安価（50%）です。
コンテキストキャッシュ保存を使用する: コンテキストキャッシュ保存は、繰り返されるコンテンツを含むリクエストの費用とレイテンシを削減するのに役立ちます。大規模で一般的なコンテンツをプロンプトの先頭に配置し、類似した接頭辞を含むリクエストを短時間で送信することで、キャッシュヒット率を高めます。
低価格のモデルを選択する: ユースケースで許容される場合は、Flash-Lite などの小型モデルを使用します。これらのモデルは、高機能の大型モデルよりもトークンあたりの価格が低くなっています。

使用オプション コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

使用オプション

ワークロードに適したオプションを選択する

レイテンシの影響を受けやすいワークロード

非同期の大規模ワークロード

レイテンシ許容型でコスト重視のワークロード

最適化戦略

レイテンシ

対象

費用

使用オプション