脈絡快取總覽

如果傳送至 Gemini 的要求含有重複內容,內容快取功能有助於降低要求成本和延遲時間。Gemini Enterprise Agent Platform 提供兩種快取類型:

  • 隱含快取:預設啟用自動快取,快取命中時可節省費用。
  • 明確快取:使用 Gemini Enterprise API 手動啟用快取,明確宣告要快取的內容,以及提示是否應參照快取內容。

無論是隱含或明確快取,回應中繼資料的 cachedContentTokenCount 欄位都會指出輸入內容快取部分的權杖數量。

快取儲存費用

無論是隱含或明確快取,系統都會按照標準輸入權杖價格,針對用於建立快取的輸入權杖向您收費。如果是明確快取,儲存快取的時間長度也會影響儲存空間費用。隱含快取不會產生儲存費用。詳情請參閱 Agent Platform 定價

隱含快取

所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記,隱含快取可為快取符記提供 90% 的折扣。

啟用後,系統會自動將隱含快取命中節省的費用轉移給你。如要提高隱含快取命中率,請採取下列行動:

  • 在提示開頭放置大型和常見內容。
  • 在短時間內傳送具有類似前置字串的要求。

支援的模型

使用下列模型時,系統支援隱含快取:

隱含快取也支援最新的別名,包括:

  • gemini-flash-latest
  • gemini-flash-lite-latest

隱式快取功能也支援開放模型。詳情請參閱「Agent Platform open models for MaaS」。

明確快取

明確快取可提供更多控制權,並確保參照現有背景資訊快取的輸入權杖享有折扣。如果是 Gemini 2.5 以上版本,折扣為 90%;如果是 Gemini 2.0 版本,折扣為 75%。

使用 Gemini Enterprise API,您可以:

您也可以使用 Gemini Enterprise API 擷取內容快取相關資訊

明確快取會與隱含快取互動,因此在建立快取時,可能會導致快取內容超出指定範圍。如要避免保留快取資料,請停用隱含快取,並避免建立明確快取。詳情請參閱「啟用及停用快取」。

支援的模型

使用下列模型時,系統支援明確快取:

明確快取也支援最新的別名,包括:

  • gemini-flash-latest
  • gemini-flash-lite-latest

使用脈絡快取的時機

如果後續要求會重複參照大量初始情境,就特別適合使用情境快取。

快取脈絡項目 (例如大量文字、音訊檔案或影片檔) 可用於 Gemini API 的提示要求,以生成輸出內容。提示詞中使用相同快取的要求也會包含每個提示詞專屬的文字。舉例來說,組成即時通訊對話的每個提示要求,可能都包含參照影片的相同內容快取,以及組成即時通訊中每個回合的專屬文字。

請考慮在下列用途中使用脈絡快取功能:

  • 具有大量系統指令的聊天機器人
  • 重複分析冗長的影片檔案
  • 針對大量文件集重複查詢
  • 頻繁分析程式碼存放區或修正錯誤

佈建輸送量支援隱含和明確快取 (以預先發布版的形式提供)。詳情請參閱「佈建輸送量指南」。快取適用於所有流量類型。舉例來說,使用佈建輸送量建立的快取也能搭配 PayGo 使用。

可用性

在可使用 Generative AI on Gemini Enterprise Agent Platform 的區域,即可使用內容快取功能。詳情請參閱「Gemini Enterprise Agent Platform 的生成式 AI 位置」。

限制

您明確快取的內容必須遵守下表所示的限制:

脈絡快取限制

隱含和明確快取的快取權杖數量下限

  • Gemini 3 和 Gemini 3.1 模型:4,096 個權杖
  • Gemini 2.0 和 2.5 模型:2,048 個符記

使用 Blob 或文字可快取的內容大小上限

10 MB

快取建立後失效前的最短時間

1 分鐘

快取建立後失效前的時間上限

快取時間沒有上限

VPC Service Controls 支援

內容快取支援 VPC Service Controls,因此快取內容不會外洩到服務周圍區域以外。如果您使用 Cloud Storage 建構快取,也請在服務周邊中加入 bucket,保護快取內容。

詳情請參閱 Gemini Enterprise Agent Platform 說明文件中的「搭配使用 VPC Service Controls 與 Gemini Enterprise Agent Platform」。

後續步驟