Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

脈絡快取總覽

如果傳送至 Gemini 的要求含有重複內容，內容快取功能有助於降低要求成本和延遲時間。Gemini Enterprise Agent Platform 提供兩種快取類型：

隱含快取：預設啟用自動快取，快取命中時可節省費用。
明確快取：使用 Gemini Enterprise API 手動啟用快取，明確宣告要快取的內容，以及提示是否應參照快取內容。

無論是隱含或明確快取，回應中繼資料的 cachedContentTokenCount 欄位都會指出輸入內容快取部分的權杖數量。

快取儲存費用

無論是隱含或明確快取，系統都會按照標準輸入權杖價格，針對用於建立快取的輸入權杖向您收費。如果是明確快取，儲存時間長度也會影響儲存費用。隱含快取不收取儲存費用。詳情請參閱 Agent Platform 定價。

隱含快取

所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記，隱含快取可為快取符記提供 90% 的折扣。

啟用後，系統會自動將隱含快取命中節省的費用轉移給您。如要提高隱含快取命中的機率，請採取下列行動：

在提示開頭放置大型和常見內容。
在短時間內傳送具有類似前置字串的要求。

支援的模型

使用下列模型時，系統支援隱含快取：

按一下即可展開支援的機型

Gemini 3.6 Flash
Gemini 3.5 Flash-Lite
Gemini 3.1 Flash-Lite Image (Nano Banana 2 Lite)
Gemini 3.5 Flash
Gemini 3.1 Flash-Lite
Gemini 3.1 Pro 預先發布版
Gemini 3 Flash 預先發布版
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

隱式快取功能也支援開放模型。詳情請參閱「Agent Platform open models for MaaS」。

明確快取

明確快取可提供更多控制權，並確保參照現有背景資訊快取的輸入權杖享有折扣。如果是 Gemini 2.5 以上版本，折扣為 90%；如果是 Gemini 2.0 版本，折扣為 75%。

使用 Gemini Enterprise API，您可以：

建立脈絡快取，並更有效率地控管。
使用內容快取：在提示要求中參照內容快取，並提供資源名稱。
將脈絡快取的到期時間 (存留時間或 TTL) 更新為超過預設的 60 分鐘。
不再需要時，請刪除脈絡快取。

您也可以使用 Gemini Enterprise API 擷取內容快取資訊。

明確快取會與隱含快取互動，因此在建立快取時，可能會導致快取超出指定內容。如要避免保留快取資料，請停用隱含快取，並避免建立明確快取。詳情請參閱「啟用及停用快取」。

支援的模型

使用下列模型時，系統支援明確快取：

按一下即可展開支援的機型

明確快取也支援最新的別名，包括：

gemini-flash-latest
gemini-flash-lite-latest

使用脈絡快取的時機

如果後續要求會重複參照大量初始情境，就特別適合使用情境快取。

快取脈絡項目 (例如大量文字、音訊檔案或影片檔案) 可用於 Gemini API 的提示要求，以生成輸出內容。提示詞中使用的相同快取也會包含每個提示詞專屬的文字。舉例來說，組成即時通訊對話的每個提示要求，可能都包含參照影片的相同內容快取，以及組成即時通訊中每個回合的專屬文字。

請考慮在下列用途中使用脈絡快取功能：

具有大量系統指令的聊天機器人
重複分析冗長的影片檔案
針對大量文件集重複查詢
經常分析程式碼存放區或修正錯誤

佈建輸送量支援預先發布版的隱含和明確快取。詳情請參閱佈建輸送量指南。快取適用於所有流量類型。舉例來說，使用佈建輸送量建立的快取也能搭配 PayGo 使用。

可用性

在可使用 Gemini Enterprise Agent Platform 生成式 AI 的區域，即可使用內容快取功能。詳情請參閱「Gemini Enterprise Agent Platform 生成式 AI 位置」。

限制

您明確快取的內容必須遵守下表所示限制：

脈絡快取限制
隱含和明確快取的快取詞元數下限	Gemini 3 系列模型：4,096 個權杖 Gemini 3.0 Flash 預先發布版和 3.1 Pro 預先發布版 (僅限隱含快取)：6,144 個權杖 Gemini 2 系列模型：2,048 個權杖
使用 Blob 或文字可快取的內容大小上限	10 MB
快取建立後失效前的最短時間	1 分鐘
快取建立後失效前的時間上限	快取時間沒有上限

VPC Service Controls 支援

內容快取支援 VPC Service Controls，因此快取內容不會外洩到服務範圍以外。如果您使用 Cloud Storage 建構快取，請一併將 bucket 納入服務周邊，保護快取內容。

詳情請參閱 Gemini Enterprise Agent Platform 說明文件中的「VPC Service Controls with Gemini Enterprise Agent Platform」。

後續步驟

瞭解 Gemini API。
瞭解如何使用多模態提示詞。

脈絡快取總覽 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

快取儲存費用

隱含快取

支援的模型

按一下即可展開支援的機型

明確快取

支援的模型

按一下即可展開支援的機型

使用脈絡快取的時機

可用性

限制

VPC Service Controls 支援

後續步驟

脈絡快取總覽