コンテキスト キャッシュ保存は、繰り返されるコンテンツを含む Gemini へのリクエストの費用とレイテンシを削減するのに役立ちます。Gemini Enterprise Agent Platform には、次の 2 種類のキャッシュ保存があります。
- 暗黙的なキャッシュ保存: デフォルトで有効になっている自動キャッシュ保存。キャッシュ ヒットが発生した場合に費用を削減できます。
- 明示的なキャッシュ保存: Gemini Enterprise API を使用して有効にする手動キャッシュ保存。ユーザーはキャッシュに保存するコンテンツと、プロンプトがキャッシュ コンテンツを参照するかどうかを明示的に宣言します。
暗黙的なキャッシュ保存と明示的なキャッシュ保存の両方で、レスポンスのメタデータの cachedContentTokenCount
フィールドは、入力のキャッシュに保存された
部分のトークン数を示します。
キャッシュ保存のストレージ費用
暗黙的なキャッシュ保存と明示的なキャッシュ保存の両方で、キャッシュの作成に使用された入力トークンに対して、標準の入力トークン料金で請求されます。明示的なキャッシュ保存の場合も、キャッシュの保存期間に基づいてストレージ費用が発生します。暗黙的なキャッシュ保存にはストレージ費用がかかりません。詳細については、Agent Platform の料金をご覧ください。
暗黙的なキャッシュ保存
すべての Google Cloud プロジェクトで、暗黙的なキャッシュ保存がデフォルトで有効になっています。暗黙的なキャッシュ保存により、キャッシュに保存されたトークンの費用は、標準の入力トークンと比較して 90% 削減されます。
有効にすると、暗黙的なキャッシュ ヒットによる費用の削減が自動的に適用されます。暗黙的なキャッシュ ヒットの可能性を高めるには:
- 大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
- 類似した接頭辞を含むリクエストを短時間で送信します。
サポートされているモデル
次のモデルを使用する場合、暗黙的なキャッシュ保存がサポートされます。
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
暗黙的なキャッシュ保存では、次の最新のエイリアスもサポートされます。
gemini-flash-latestgemini-flash-lite-latest
暗黙的なキャッシュ保存では、オープンモデルもサポートされます。詳細については、 MaaS 用の Agent Platform オープンモデルをご覧ください。
明示的なキャッシュ保存
明示的なキャッシュ保存では、よりきめ細かい制御が可能になり、既存のコンテキスト キャッシュを参照する入力トークンに割引が適用されます。Gemini 2.5 以降のモデルでは 90%、Gemini 2.0 モデルでは 75% の割引が適用されます。
Gemini Enterprise API を利用すると、次のような処理が可能です。
- コンテキスト キャッシュを作成し、より効果的に制御する。
- コンテキスト キャッシュを使用する: プロンプト リクエストでリソース名を使用してコンテンツを参照します。
- デフォルトの 60 分を超えてコンテキスト キャッシュの有効期限(有効期間、TTL)を更新する。
- 不要になったコンテキスト キャッシュを削除する。
Gemini Enterprise API を使用して、コンテキスト キャッシュに関する情報を 取得することもできます。
明示的なキャッシュは暗黙的なキャッシュと連携するため、 追加のキャッシュが指定されたコンテンツ以外に発生する可能性があります。キャッシュを作成する際。キャッシュ データの保持を防ぐには、暗黙的なキャッシュ保存を無効にし、明示的なキャッシュを作成しないようにします。詳細については、キャッシュ保存を有効または無効にするをご覧ください。
サポートされているモデル
次のモデルを使用する場合、明示的なキャッシュ保存がサポートされます。
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
明示的なキャッシュ保存では、次の最新のエイリアスもサポートされます。
gemini-flash-latestgemini-flash-lite-latest
コンテキスト キャッシュ保存を使用する状況
コンテキスト キャッシュ保存は、初期コンテキストの実体部分が、後続のリクエストで繰り返し参照されるシナリオに特に適しています。
大量のテキスト、音声ファイル、動画ファイルなど、キャッシュに保存されたコンテキスト アイテムは、Gemini API へのプロンプト リクエストで使用して出力を生成できます。プロンプト内で同じキャッシュを使用するリクエストには、各プロンプトに固有のテキストも含まれます。たとえば、チャットの会話を構成する各プロンプト リクエストには、チャットの各ターンを構成する一意のテキストだけでなく、動画を参照する同一のコンテキスト キャッシュも含まれる場合があります。
次のようなユースケースでは、コンテキスト キャッシュ保存の使用を検討してください。
- 広範なシステム指示を伴う chatbot
- 長時間の動画ファイルの繰り返し分析
- 大規模なドキュメント セットに対する繰り返しのクエリ
- 頻繁なコード リポジトリの分析やバグ修正
暗黙的キャッシュ保存と明示的キャッシュ保存は、プロビジョンド スループット のプレビュー版でサポートされています。詳しくは、プロビジョンド スループット ガイド をご覧ください。キャッシュは、さまざまなトラフィック タイプで機能します。たとえば、プロビジョンド スループットの使用中に作成されたキャッシュは、従量課金制でも機能します。
対象
コンテキスト キャッシュ保存は、Gemini Enterprise Agent Platform の生成 AI が利用可能なリージョンで使用できます。詳細については、Gemini Enterprise Agent Platform の生成 AI が利用可能なリージョンをご覧ください。
上限
キャッシュに保存するコンテンツについては、次の表に示す上限を遵守する必要があります。
| コンテキスト キャッシュ保存の上限 | |
|---|---|
暗黙的キャッシュ保存と明示的キャッシュ保存の最小キャッシュ トークン数 |
|
blob またはテキストを使用してキャッシュに保存できるコンテンツの最大サイズ |
10 MB |
キャッシュの作成後に有効期限切れになるまでの最小時間 |
1 分 |
キャッシュの作成後、キャッシュが有効期限切れになるまでの最大時間 |
キャッシュの最大保存期間はありません |
VPC Service Controls のサポート
コンテキスト キャッシュ保存は VPC Service Controls をサポートしています。つまり、キャッシュがサービス境界外に漏洩することはありません。Cloud Storage を使用してキャッシュを構築する場合は、キャッシュ コンテンツを保護するために、バケットをサービス境界に含めます。
詳細については、Gemini Enterprise Agent Platform での VPC Service Controls Gemini Enterprise Agent Platform ドキュメントをご覧ください。
次のステップ
- Gemini API の詳細を確認する。
- マルチモーダル プロンプトを使用する方法を確認する。