如果傳送至 Gemini 的要求含有重複內容,內容快取功能有助於降低要求成本和延遲時間。Gemini Enterprise Agent Platform 提供兩種快取類型:
- 隱含快取:預設啟用自動快取,快取命中時可節省費用。
- 明確快取:使用 Gemini Enterprise API 手動啟用快取,明確宣告要快取的內容,以及提示是否應參照快取內容。
無論是隱含或明確快取,回應中繼資料的 cachedContentTokenCount 欄位都會指出輸入內容快取部分的權杖數量。
快取儲存費用
無論是隱含或明確快取,系統都會按照標準輸入權杖價格,針對用於建立快取的輸入權杖向您收費。如果是明確快取,儲存快取的時間長度也會影響儲存空間費用。隱含快取不會產生儲存費用。詳情請參閱 Agent Platform 定價。
隱含快取
所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記,隱含快取可為快取符記提供 90% 的折扣。
啟用後,系統會自動將隱含快取命中節省的費用轉移給你。如要提高隱含快取命中率,請採取下列行動:
- 在提示開頭放置大型和常見內容。
- 在短時間內傳送具有類似前置字串的要求。
支援的模型
使用下列模型時,系統支援隱含快取:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
隱含快取也支援最新的別名,包括:
gemini-flash-latestgemini-flash-lite-latest
隱式快取功能也支援開放模型。詳情請參閱「Agent Platform open models for MaaS」。
明確快取
明確快取可提供更多控制權,並確保參照現有背景資訊快取的輸入權杖享有折扣。如果是 Gemini 2.5 以上版本,折扣為 90%;如果是 Gemini 2.0 版本,折扣為 75%。
使用 Gemini Enterprise API,您可以:
- 建立脈絡快取,並更有效地控管。
- 使用內容快取:在提示要求中參照內容快取,並提供資源名稱。
- 將脈絡快取的到期時間 (存留時間或 TTL) 更新為超過預設的 60 分鐘。
- 不再需要時,請刪除脈絡快取。
您也可以使用 Gemini Enterprise API 擷取內容快取相關資訊。
明確快取會與隱含快取互動,因此在建立快取時,可能會導致快取內容超出指定範圍。如要避免保留快取資料,請停用隱含快取,並避免建立明確快取。詳情請參閱「啟用及停用快取」。
支援的模型
使用下列模型時,系統支援明確快取:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
明確快取也支援最新的別名,包括:
gemini-flash-latestgemini-flash-lite-latest
使用脈絡快取的時機
如果後續要求會重複參照大量初始情境,就特別適合使用情境快取。
快取脈絡項目 (例如大量文字、音訊檔案或影片檔) 可用於 Gemini API 的提示要求,以生成輸出內容。提示詞中使用相同快取的要求也會包含每個提示詞專屬的文字。舉例來說,組成即時通訊對話的每個提示要求,可能都包含參照影片的相同內容快取,以及組成即時通訊中每個回合的專屬文字。
請考慮在下列用途中使用脈絡快取功能:
- 具有大量系統指令的聊天機器人
- 重複分析冗長的影片檔案
- 針對大量文件集重複查詢
- 頻繁分析程式碼存放區或修正錯誤
佈建輸送量支援隱含和明確快取 (以預先發布版的形式提供)。詳情請參閱「佈建輸送量指南」。快取適用於所有流量類型。舉例來說,使用佈建輸送量建立的快取也能搭配 PayGo 使用。
可用性
在可使用 Generative AI on Gemini Enterprise Agent Platform 的區域,即可使用內容快取功能。詳情請參閱「Gemini Enterprise Agent Platform 的生成式 AI 位置」。
限制
您明確快取的內容必須遵守下表所示的限制:
| 脈絡快取限制 | |
|---|---|
隱含和明確快取的快取權杖數量下限 |
|
使用 Blob 或文字可快取的內容大小上限 |
10 MB |
快取建立後失效前的最短時間 |
1 分鐘 |
快取建立後失效前的時間上限 |
快取時間沒有上限 |
VPC Service Controls 支援
內容快取支援 VPC Service Controls,因此快取內容不會外洩到服務周圍區域以外。如果您使用 Cloud Storage 建構快取,也請在服務周邊中加入 bucket,保護快取內容。
詳情請參閱 Gemini Enterprise Agent Platform 說明文件中的「搭配使用 VPC Service Controls 與 Gemini Enterprise Agent Platform」。
後續步驟
- 瞭解 Gemini API。
- 瞭解如何使用多模態提示詞。