Gemini Enterprise Agent Platform では、生成モデルを使用する際にコンピューティング リソースを取得して使用するための複数のオプションが用意されています。これらの 使用オプションは、初期プロトタイピングから本番環境へのデプロイまで、あらゆるワークロードのニーズを満たすように設計されています。 適切なオプションを選択することは、パフォーマンス、信頼性、費用のバランスを取るうえで非常に重要です。
このガイドでは、利用可能な使用オプションについて詳しく説明し、特定のワークロード要件にマッピングする方法と、レイテンシ、可用性、費用を最適化するための戦略について説明します。
使用オプション
Gemini Enterprise Agent Platform には、さまざまなトラフィック パターンとビジネスニーズに合わせて調整された 5 つの使用オプションが用意されています。
| 使用オプション | 説明 | 最適な用途 | 料金 | |
|---|---|---|---|---|
| プロビジョンド スループット | 契約期間のスループットを保証します | SLA が必要な、重要性が高い、定常的な、常時オンのワークロード | コミットメント ベース(1 週間、1 か月、3 か月、1 年のプランで利用可能) | |
| PayGo | Standard | 前払いのコミットメントなしで柔軟に利用できる従量課金オプション | トラフィック需要が変動する日常的なユースケース向けのデフォルト オプション | トークン単位(標準料金) |
| 候補 | 従量制の柔軟性を維持しながら、優先処理により信頼性を高めます | 標準の従量制よりも高い信頼性と上限を必要とする重要なワークロード | トークン単位(プレミアム料金) | |
| フレックス | レイテンシが許容されるワークロード向けの費用対効果の高いオプション | レスポンス時間が遅く、スロットリングが高くても許容できるタスク。料金が低くなります | トークン単位(割引料金) | |
| バッチ推論 | 大量の非同期処理向けに費用を最適化 | 結果がより長い期間内に必要な大規模ジョブ | トークン単位(割引料金) | |
料金については、料金 ページをご覧ください。
ワークロードに適したオプションを選択する
以降のセクションでは、ワークロードの特定の要件と特性に基づいて最適な使用オプションを選択するためのガイダンスを提供します。
レイテンシの影響を受けやすいワークロード
組織は、適切な使用モデルを選択する際に、信頼性と費用の間でトレードオフを行う必要があります。プロビジョンド スループットは最高の信頼性を提供しますが、トラフィックが急増すると使用率が低下する可能性があります。同様に、従量制は最大限の柔軟性を提供しますが、サービス品質を保証することはできません。次のセクションでは、これらのメカニズムを最適に組み合わせて最適な結果を得る方法について説明します。
- プロビジョンド スループットでベースライン トラフィックをカバーする。これにより、予約済み容量の使用率が向上し、トラフィックのコアの信頼性を保証しながら経済的になります。これを実現するには、次の操作を行います。
- 分単位または秒単位のトラフィック パターンを分析します。
- プロビジョンド スループットでカバーするトラフィック量を決定します。最優先のトラフィックをカバーする必要があります。
- Standard または Priority 従量制でスピルオーバー トラフィックを管理する: デフォルトでは、 プロビジョンド スループットのベースラインを超えるトラフィック( スピルオーバー トラフィック)は、Standard 従量制で処理されます。TPM 上限を超えるリクエストのパフォーマンスのばらつきが大きい場合は、 最適化によって 軽減できます。Priority 従量制では、ランプアップの上限に応じて、プレミアム価格で信頼性の高い パフォーマンスを実現できます。
非同期の大規模ワークロード
リクエストのバックログが大きい場合(要約するドキュメントが数百万件ある場合など)、レイテンシがすぐに問題にならない場合は、リクエストを JSON ファイルまたはスプレッドシートに記述して バッチジョブを送信する必要があります。これは、画像ラベリング、ドキュメントの一括処理、過去のデータの感情分析などのユースケースに役立ちます。
このオプションは、大量の推論を行う場合に最も費用対効果の高いオプションです。
レイテンシが許容され、費用が重視されるワークロード
リクエスト(データの注釈付けやカタログの作成など)を処理する必要があり、 アプリケーションがレスポンスを待機できるが、費用の削減が優先される場合は、 Flex 従量制を使用する必要があります。Flex 従量制では、すぐに実行する必要のないリクエストに対して、トークンあたりの料金が削減されます。このオプションは、オフライン分析、データの注釈付け、商品カタログの作成、翻訳などのユースケースに役立ちます。
最適化戦略
使用モデルを選択したら、次の戦略を使用して、レイテンシ、可用性、費用をさらに最適化します。
レイテンシ
インタラクティブなアプリケーションを構築する場合、レイテンシはユーザー エクスペリエンスにおいて重要な役割を果たします。レイテンシとは、モデルが入力プロンプトを処理し、対応する出力レスポンスを生成するまでにかかる時間のことです。 モデルでレイテンシを調べる際は、次の点を考慮してください。
- 最初のトークンまでの時間(TTFT): モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間。TTFT は、即時のフィードバックが不可欠なストリーミング アプリケーションで特に重要です。
- 最後のトークンまでの時間(TTLT): モデルがプロンプトを処理して レスポンスを生成するまでにかかる全体的な時間。
レイテンシを最適化するには:
- ユースケースに適したモデルを選択する: Gemini Enterprise Agent Platform には、さまざまな機能とパフォーマンス特性を持つ 多様なモデルが用意されています。速度と出力の品質に関する要件を慎重に評価し、ユースケースに最適なモデルを選択します。利用可能なモデルの一覧については、Model Gardenをご覧ください。
- プロンプトのサイズを小さくする: 不要な詳細や冗長性のない、意図を効果的に 伝える明確で簡潔なプロンプトを作成します。プロンプトを短くすると、最初のトークンまでの時間が短縮されます。
- 出力トークンを制限する:
- システム指示を使用して、レスポンスの長さを制御します。簡潔な回答を提供するようモデルに指示するか、出力の文または段落を特定の数に制限します。この戦略により、最後のトークンまでの時間を短縮できます。
- 上限を設定して出力を制限します。
max_output_tokensパラメータを使用して、生成されるレスポンスの長さに上限を設定し、出力が長くなりすぎないようにします。レイテンシは、生成されるトークンの数に正比例します。生成するトークンが少ないほど、レスポンスが速くなります。ただし、文の途中でレスポンスが途切れる可能性があるため、注意が必要です。
- プロビジョンド スループットを使用する: 最も一貫したパフォーマンスを得るには、 プロビジョンド スループットを使用します。これにより、トラフィックが多いときに従量制モデルで発生する可能性がある「コールド スタート」やキューイングによる変動がなくなります。
- 思考予算を制限する: 思考モードをサポートするモデルを使用している場合は、思考予算を減らすことでレイテンシを短縮できます。モデルが回答する前に生成する内部推論トークンを制限することで、処理時間全体を短縮できます。ただし、回答の品質が低下しないように、タスクの複雑さに十分な予算を確保する必要があります。
- レスポンスにストリーミングを使用する: ストリーミング により、応答性が向上し、よりインタラクティブなユーザー エクスペリエンスを実現できます。ストリーミングでは、モデルは完全な出力を生成する前にレスポンスを送信し始めます。これにより、出力のリアルタイム処理が可能になり、ユーザー インターフェースをすぐに更新して、他のタスクを同時に実行できます。
対象
可用性を最適化するには:
- リトライ ロジックを実装する: 429 エラーに対して指数バックオフを実装します。 特に Standard 従量制を使用する場合。
- ハイブリッド実装を使用する: 前の セクションで説明したように、重要な 本番環境アプリでは従量制のみに依存しないでください。プロビジョンド スループットと従量制を組み合わせることで、リソース不足(429 エラー)に対する保証が最大限に高まります。
- プロビジョンド スループットの割り当てを管理する: TPM の使用量を定期的にモニタリングし、トラフィック イベント(プロダクトのリリースなど)が予測される前に PT GSU を増やします。アラート ポリシーを使用して、 モニタリングを自動化できます。
- グローバル エンドポイントを使用する: グローバル エンドポイントを使用して Google のグローバル 容量プールを利用し、リージョンの容量制約によるスロットリングを最小限に抑えます。
- 可能な限りトラフィックを平滑化して急増を減らす: 従量制の トラフィック レート(TPM)が高いほど、スロットリング率が高くなる傾向があります。
- トラフィックをオフピーク時にシフトする: モデルの使用量は通常、集計された日中のパターンに従います。ワークロードをオフピーク時や週末にシフトすると、可用性が大幅に向上する可能性があります。
費用
費用を最適化するには:
- プロビジョンド スループットに適切なサイズ設定を使用する: 通常、PT をピーク時にプロビジョニングする必要はありません。これにより、PT の全体的な使用率が低下し、総費用が増加します。リスク許容度に応じてトラフィックの特定のパーセンタイルを目指し、残りは Standard 従量制と Priority 従量制で処理します。
- 長期のプロビジョンド スループットを購入する: 1 年間の PT は 1 か月の PT から 26% 割引されるため、費用を大幅に削減できます。購入したプロビジョンド スループット GSU は、いつでもさまざまなモデル間で切り替えて、最新のモデル機能を利用できます。
- Flex 従量制を使用する: レイテンシ の影響を受けないパイプラインの一部(バックグラウンドでの要約、データ抽出など)を特定し、Flex に移行して費用を約 50% 削減します。
- バッチ処理を使用する: 大規模な データセットの処理などの非同期ジョブの場合、バッチ処理は Standard 従量制を使用してリクエストを順番に処理するよりも大幅に安価(50%)です。
- コンテキスト キャッシュ保存を使用する: コンテキスト キャッシュ保存 は、繰り返されるコンテンツを含むリクエストの費用とレイテンシを削減するのに役立ちます。 大規模で一般的なコンテンツをプロンプトの先頭に配置し、類似した接頭辞を含むリクエストを短時間で送信することで、キャッシュ ヒット率を高めます。
- 低価格のモデルを選択する: ユースケースで許容される場合は、Flash-Lite などの 小規模モデルを使用します。このモデルは、高機能でフル機能のモデルよりもトークンあたりの価格が 低くなっています。