提示快取

Anthropic Claude 模型提供提示快取功能,在多個要求中重複使用相同內容時,可減少延遲和成本。傳送查詢時,您可以快取所有或特定部分的輸入內容,以便後續查詢使用先前要求的快取結果。這樣可避免額外的運算和網路費用。快取是專案專屬的 Google Cloud ,其他專案無法使用。

如要進一步瞭解如何建構提示,請參閱 Anthropic 的提示快取說明文件。

資料處理

Anthropic 顯式提示快取是 Anthropic Claude 模型的一項功能。這些 Anthropic 模型在 Vertex AI 中的運作方式,請參閱 Anthropic 說明文件

提示快取是選用功能。Claude 會計算要求雜湊 (指紋) 做為快取鍵。只有啟用快取的請求才會計算這些雜湊值。

雖然提示快取是 Claude 模型實作的功能,但從資料處理的角度來看,Google 會將這些雜湊視為一種「使用者中繼資料」。根據《Google Cloud隱私權聲明》,這些資料屬於客戶「服務資料」,而非《Cloud 資料處理附加條款 (客戶)》所指的「客戶資料」。具體來說,這些雜湊值不適用於「客戶資料」的額外保護措施。Google 不會將這些雜湊值用於其他用途。

如要完全停用這項提示快取功能,並在特定 Google Cloud 專案中停用,請聯絡客戶服務並提供相關專案編號。為專案停用明確快取後,系統會拒絕專案中啟用提示快取的要求。

使用提示快取

您可以使用 Anthropic Claude SDK 或 Vertex AI REST API,將要求傳送至 Vertex AI 端點。

詳情請參閱「提示快取的運作方式」。

如需其他範例,請參閱 Anthropic 說明文件中的「提示快取範例」。

後續要求包含與第一個要求相同的文字、圖片和 cache_control 參數時,系統就會自動快取。所有要求也必須在相同區塊中加入 cache_control 參數。

根據預設,快取的存留時間 (TTL) 為五分鐘。您可以在 cache_control 物件中設定 "ttl": "1h",將 TTL 延長至一小時。每次存取快取內容時,系統都會重新整理快取生命週期。詳情請參閱「1 小時的快取時間長度」。

下列模型不支援一小時的 TTL: Claude 3.7 Sonnet、Claude 3.5 Sonnet v2、 Claude 3.5 Sonnet 和 Claude 3 Opus。

定價

提示快取可能會影響帳單費用。注意事項:

  • 效期五分鐘的快取寫入權杖比基本輸入權杖貴 25%。
  • 效期一小時的快取寫入權杖,費用比基本輸入權杖高出 100%。
  • 快取讀取權杖的價格比基本輸入權杖便宜 90%。
  • 一般輸入和輸出權杖的價格為標準費率。

詳情請參閱定價頁面。