I modelli Anthropic Claude offrono la memorizzazione nella cache dei prompt per ridurre la latenza e i costi quando si riutilizzano gli stessi contenuti in più richieste. Quando invii una query, puoi memorizzare nella cache tutte le parti o parti specifiche dell'input in modo che le query successive possano utilizzare i risultati memorizzati nella cache della richiesta precedente. In questo modo si evitano costi aggiuntivi di calcolo e di rete. Le cache sono univoche per il tuo progetto Google Cloud e non possono essere utilizzate da altri progetti.
Per informazioni dettagliate su come strutturare i prompt, consulta la documentazione sulla memorizzazione nella cache dei prompt di Anthropic.
Trattamento dati
La memorizzazione nella cache dei prompt espliciti di Anthropic è una funzionalità dei modelli Anthropic Claude. L'offerta Vertex AI di questi modelli Anthropic si comporta come descritto nella documentazione di Anthropic.
La memorizzazione nella cache dei prompt è una funzionalità facoltativa. Claude calcola gli hash (impronte) delle richieste per le chiavi di memorizzazione nella cache. Questi hash vengono calcolati solo per le richieste per cui è stata attivata la memorizzazione nella cache.
Sebbene la memorizzazione nella cache dei prompt sia una funzionalità implementata dai modelli Claude, dal punto di vista della gestione dei dati, Google considera questi hash un tipo di "metadati utente". Sono trattati come "Dati di servizio" dei clienti ai sensi dell'Google Cloud Informativa sulla privacy e non come "Dati dei clienti" ai sensi dell'Addendum per il trattamento dei dati Cloud (clienti). In particolare, le protezioni aggiuntive per i "Dati dei clienti" non si applicano a questi hash. Google non utilizza questi hash per altri scopi.
Se vuoi disattivare completamente questa funzionalità di memorizzazione nella cache dei prompt e renderla non disponibile in determinati progetti Google Cloud , puoi richiederlo contattando l'assistenza clienti e fornendo i numeri di progetto pertinenti. Dopo la disattivazione della memorizzazione nella cache esplicita per un progetto, le richieste del progetto con la memorizzazione nella cache dei prompt abilitata vengono rifiutate.
Utilizzare la memorizzazione nella cache dei prompt
Puoi utilizzare l'SDK Anthropic Claude o l'API REST Vertex AI per inviare richieste all'endpoint Vertex AI.
Per saperne di più, consulta Come funziona la memorizzazione nella cache dei prompt.
Per altri esempi, consulta gli Esempi di memorizzazione nella cache dei prompt nella documentazione di Anthropic.
La memorizzazione nella cache avviene automaticamente quando le richieste successive contengono lo stesso testo, le stesse immagini e lo stesso parametro cache_control della prima richiesta. Tutte le richieste
devono includere anche il parametro cache_control negli stessi blocchi.
Per impostazione predefinita, la cache ha una durata di cinque minuti o durata (TTL). Puoi estendere il TTL a un'ora impostando "ttl": "1h" all'interno dell'oggetto cache_control. La durata della cache viene aggiornata ogni volta che si accede ai contenuti memorizzati nella cache. Per saperne di più, consulta
Durata della cache di 1 ora.
Il TTL di un'ora non è supportato per i seguenti modelli: Claude 3.7 Sonnet, Claude 3.5 Sonnet v2, Claude 3.5 Sonnet e Claude 3 Opus.
Prezzi
La memorizzazione nella cache dei prompt può influire sui costi di fatturazione. Ricorda:
- I token di scrittura della cache con una durata di cinque minuti sono il 25% più costosi dei token di input di base.
- I token di scrittura della cache con una durata di un'ora sono il 100% più costosi dei token di input di base.
- I token di lettura della cache costano il 90% in meno rispetto ai token di input di base.
- I token di input e output regolari hanno tariffe standard.
Per ulteriori informazioni, consulta la pagina Prezzi.