Gemini Enterprise エージェント プラットフォームでは、生成モデルを使用する際にコンピューティング リソースを取得して使用するための複数のオプションが用意されています。これらの消費オプションは、初期プロトタイピングから本番環境へのデプロイまで、あらゆるワークロードのニーズを満たすように設計されています。適切なオプションを選択することは、パフォーマンス、信頼性、費用のバランスを取るうえで非常に重要です。
このガイドでは、使用可能な消費オプションについて詳しく説明し、特定のワークロード要件にマッピングする方法と、レイテンシ、可用性、費用を最適化するための戦略について説明します。
使用オプション
Gemini Enterprise Agent Platform には、さまざまなトラフィック パターンとビジネスニーズに合わせて調整された 5 つの消費オプションが用意されています。
| 使用オプション | 説明 | 推奨用途 | 料金 | |
|---|---|---|---|---|
| プロビジョンド スループット | 契約期間のスループットを保証する | SLA が必要な、重要で安定した常時稼働のワークロード | コミットメント ベース(1 週間、1 か月、3 か月、1 年間のプランで利用可能) | |
| 従量制 | Standard | 前払いのコミットメントなしの柔軟な従量課金オプション | トラフィック需要の変動に対応できる柔軟性を備えた、日常的なユースケース向けのデフォルト オプション | トークン単位(標準レート) |
| 優先度 | PayGo の柔軟性を維持しながら、優先処理によって信頼性を向上 | Standard PayGo よりも高い信頼性と上限を必要とする重要なワークロード | トークン単位(プレミアム レート) | |
| フレックス | レイテンシ許容ワークロード向けの費用対効果の高いオプション | 応答時間が遅く、スロットリングが高くても、料金が安い方がよいタスク | トークン単位(割引料金) | |
| バッチ推論 | 大量の非同期処理向けに最適化されたコスト | 結果がより長い期間内に必要な大規模なジョブ | トークン単位(割引料金) | |
料金については、料金ページをご覧ください。
ワークロードに適したオプションを選択する
以降のセクションでは、ワークロードの具体的な要件と特性に基づいて最適な使用オプションを選択するためのガイダンスを提供します。
レイテンシの影響を受けやすいワークロード
組織は、適切な消費モデルを選択する際に、信頼性と費用のバランスを取る必要があります。プロビジョンド スループットは信頼性が最も高いですが、トラフィックが急増すると使用率が低下する可能性があります。同様に、PayGo は最大限の柔軟性を提供しますが、サービス品質を保証することはできません。次のセクションでは、最適な結果を得るためにこれらのメカニズムを最適に組み合わせる方法について説明します。
- プロビジョンド スループットでベースライン トラフィックをカバーします。これにより、予約済み容量の使用率が向上し、トラフィックのコアの信頼性が保証されながら、経済的になります。これを行う手順は以下のとおりです。
- 分単位または秒単位のトラフィック パターンを分析します。
- プロビジョンド スループットでカバーするトラフィック量を決定します。最優先のトラフィックをカバーする必要があります。
- Standard または Priority PayGo でスピルオーバー トラフィックを管理する: デフォルトでは、プロビジョンド スループットのベースラインを超えるトラフィック(スピルオーバー トラフィック)は、Standard PayGo によって処理されます。TPM 上限を超えるリクエストのパフォーマンスの分散が大きい場合は、最適化によって分散を軽減できます。Priority PayGo を使用すると、ランプアップの上限を条件として、プレミアム価格で信頼性の高いパフォーマンスを実現できます。
非同期の大規模ワークロード
リクエストのバックログが大きい場合(要約するドキュメントが数百万件ある場合など)、レイテンシが直ちに問題にならない場合は、リクエストを JSON ファイルまたはスプレッドシートに作成して、バッチジョブを送信する必要があります。これは、画像ラベル付け、ドキュメントの一括処理、過去のデータに対する感情分析などのユースケースに役立ちます。
これは、大量の推論に最も費用対効果の高いオプションです。
レイテンシ許容型でコスト重視のワークロード
アプリケーションがレスポンスを待つことができるリクエストを処理する必要があり、コスト削減が優先される場合は、Flex PayGo を使用する必要があります。Flex PayGo では、即時実行を必要としないリクエストに対して、トークンあたりの料金が割引されます。このオプションは、オフライン分析、データ アノテーション、商品カタログの構築、翻訳などのユースケースに役立ちます。
最適化戦略
消費モデルを選択したら、次の戦略を使用して、レイテンシ、可用性、費用をさらに最適化します。
レイテンシ
インタラクティブなアプリケーションを構築する場合、レイテンシはユーザー エクスペリエンスにおいて重要な役割を果たします。レイテンシとは、モデルが入力プロンプトを処理し、対応する出力レスポンスを生成するまでにかかる時間のことです。モデルでレイテンシを調べる際は、次の点を考慮してください。
- 最初のトークンまでの時間(TTFT): モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間。TTFT は、ストリーミング アプリケーションにおいて特に重要で、即時のフィードバックを提供することが不可欠な場合に適しています。
- 最後のトークンまでの時間(TTLT): モデルがプロンプトを処理してレスポンスを生成するまでにかかる全体的な時間。
レイテンシを最適化するには:
- ユースケースに適したモデルを選択する: Gemini Enterprise Agent Platform は、さまざまな機能とパフォーマンス特性を備えた多様なモデルを提供します。速度と出力の品質に関する要件を慎重に評価し、ユースケースに最適なモデルを選択します。使用可能なモデルの一覧については、Model Garden をご覧ください。
- プロンプトのサイズを小さくする: 不要な詳細や冗長性のない、意図を効果的に伝える明確で簡潔なプロンプトを作成します。プロンプトを短くすると、最初のトークンまでの時間が短縮されます。
- 出力トークンを制限する:
- システム指示を使用して、レスポンスの長さを制御します。簡潔な回答を提供するようモデルに指示するか、出力の文または段落を特定の数に制限します。この戦略により、最後のトークンまでの時間を短縮できます。
- 上限を設定して出力を制限します。
max_output_tokensパラメータを使用して、生成されるレスポンスの長さに上限を設定し、出力が長くなりすぎないようにします。レイテンシは生成されるトークンの数に正比例します。生成されるトークンが少ないほど、レスポンスが速くなります。ただし、文の途中でレスポンスが途切れる可能性があるため、注意が必要です。
- プロビジョンド スループットを使用する: 最も一貫したパフォーマンスを実現するには、プロビジョンド スループットを使用します。これにより、トラフィックが多いときに PayGo モデルで発生する可能性があるコールド スタートやキューイングによる変動を排除できます。
- 思考予算を制限する: 思考をサポートするモデルを使用している場合は、思考予算を減らすことでレイテンシを短縮できます。モデルが回答前に生成する内部推論トークンを制限することで、処理時間全体を短縮できます。ただし、回答の品質が低下しないように、タスクの複雑さに応じて十分な予算を確保する必要があります。
- レスポンスにストリーミングを使用する: ストリーミングにより、応答性が向上し、よりインタラクティブなユーザー エクスペリエンスを実現できます。ストリーミングでは、モデルは完全な出力を生成する前にレスポンスを送信し始めます。これにより、出力をリアルタイムで処理できるため、ユーザー インターフェースをすぐに更新して、他のタスクを同時に実行できます。
対象
可用性を最適化するには:
- リトライ ロジックを実装する: 特に Standard PayGo を使用する場合は、429 エラーに対して指数バックオフを実装します。
- ハイブリッド実装を使用する: ワークロードに適したオプションを選択するで説明したように、重要な本番環境アプリで PayGo のみを使用しないでください。プロビジョンド スループットと PayGo を組み合わせることで、リソース不足(429 エラー)に対する保証が最大になります。
- プロビジョンド スループットの割り当てを管理する: TPM の使用量を定期的にモニタリングし、トラフィックの急増が予想されるイベント(プロダクトのリリースなど)の前に PT GSU を増やします。アラート ポリシーを使用して、モニタリングを自動化できます。
- グローバル エンドポイントを使用する: グローバル エンドポイントを使用して、Google のグローバル容量プールを活用し、リージョン容量の制約によるスロットリングを最小限に抑えます。
- 可能な限りトラフィックを平滑化してスパイクを減らす: PayGo のトラフィック レート(TPM)が高いほど、スロットリング レートが高くなる傾向があります。
- トラフィックをオフピーク時にシフトする: モデルの使用量は、一般的に日周パターンに従います。ワークロードをオフピーク時や週末にシフトすると、可用性を大幅に向上させることができます。
費用
費用を最適化するには:
- プロビジョンド スループットを適切なサイズにする: 一般に、ピーク時の需要をカバーするために PT をプロビジョニングする必要はありません。ピーク時の需要に合わせてプロビジョニングすると、全体的な使用率が低下し、費用が増加します。リスク許容度に応じてトラフィックの特定のパーセンタイルをカバーし、残りのトラフィックは Standard PayGo と Priority PayGo で処理するようにします。
- 長期のプロビジョンド スループットを購入する: 1 年間の PT コミットメントの料金は、1 か月間の PT と比較して 26% 割引になるため、大幅なコスト削減につながります。購入したプロビジョンド スループット GSU に関連付けられたモデルは、いつでも変更して、最新のモデル機能を利用できます。
- Flex PayGo を使用する: パイプラインのレイテンシの影響を受けない部分(バックグラウンドでの要約、データ抽出など)を特定し、Flex PayGo に移動して、費用を約 50% 削減します。
- バッチ処理を使用する: 大規模なデータセットの処理などの非同期ジョブの場合、バッチ処理は Standard PayGo を使用してリクエストを順番に処理するよりも大幅に安価(50%)です。
- コンテキスト キャッシュ保存を使用する: コンテキスト キャッシュ保存は、繰り返されるコンテンツを含むリクエストの費用とレイテンシを削減するのに役立ちます。大規模で一般的なコンテンツをプロンプトの先頭に配置し、類似した接頭辞を含むリクエストを短時間で送信することで、キャッシュ ヒット率を高めます。
- 低価格のモデルを選択する: ユースケースで許容される場合は、Flash-Lite などの小型モデルを使用します。このモデルは、高機能のフル機能モデルよりもトークンあたりの価格が低くなっています。