Panoramica della memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto contribuisce a ridurre il costo e la latenza delle richieste a Gemini che contengono contenuti ripetuti. Gemini Enterprise Agent Platform offre due tipi di memorizzazione nella cache:

  • Memorizzazione nella cache implicita: memorizzazione nella cache automatica abilitata per impostazione predefinita che consente di risparmiare sui costi quando si verificano hit della cache.
  • Caching esplicito:caching manuale abilitato utilizzando l'API Gemini Enterprise, in cui dichiari esplicitamente i contenuti che vuoi memorizzare nella cache e se i prompt devono fare riferimento ai contenuti memorizzati nella cache.

Per la memorizzazione nella cache implicita ed esplicita, il campo cachedContentTokenCount nei metadati della risposta indica il numero di token nella parte memorizzata nella cache dell'input.

Costi di archiviazione nella cache

Per la memorizzazione nella cache implicita ed esplicita, ti vengono addebitati i token di input utilizzati per creare la cache al prezzo standard dei token di input. Per la memorizzazione esplicita nella cache, sono previsti anche costi di archiviazione in base alla durata di archiviazione delle cache. Non sono previsti costi di archiviazione per la memorizzazione nella cache implicita. Per ulteriori informazioni, consulta la sezione Prezzi di Agent Platform.

Memorizzazione nella cache implicita

Per impostazione predefinita, la memorizzazione nella cache implicita è abilitata per tutti i Google Cloud progetti. La memorizzazione nella cache implicita offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard.

Se attivato, il risparmio sui costi per l'hit implicito della cache viene trasferito automaticamente a te. Per aumentare le probabilità di un hit implicito della cache:

  • Inserisci i contenuti più grandi e comuni all'inizio del prompt.
  • Invia richieste con un prefisso simile in un breve periodo di tempo.

Modelli supportati

La memorizzazione implicita nella cache è supportata quando utilizzi i seguenti modelli:

Fai clic per espandere i modelli supportati

La memorizzazione implicita nella cache supporta anche gli alias più recenti, tra cui:

  • gemini-flash-latest
  • gemini-flash-lite-latest

La memorizzazione nella cache implicita supporta anche i modelli aperti. Per ulteriori informazioni, consulta Modelli aperti di Agent Platform per MaaS.

Memorizzazione nella cache esplicita

La memorizzazione nella cache esplicita offre un maggiore controllo e garantisce uno sconto sui token di input che fanno riferimento a una cache del contesto esistente. Sui modelli Gemini 2.5 o versioni successive, questo sconto è del 90%; sui modelli Gemini 2.0, è del 75%.

Utilizzando l'API Gemini Enterprise, puoi:

Puoi anche utilizzare l'API Gemini Enterprise per recuperare informazioni su una cache del contesto.

Le cache esplicite interagiscono con la memorizzazione nella cache implicita, il che potrebbe portare a una memorizzazione nella cache aggiuntiva oltre ai contenuti specificati durante la creazione di una cache. Per impedire la conservazione dei dati della cache, disattiva la memorizzazione nella cache implicita ed evita di creare cache esplicite. Per maggiori informazioni, vedi Attivare e disattivare la memorizzazione nella cache.

Modelli supportati

La memorizzazione esplicita nella cache è supportata quando utilizzi i seguenti modelli:

Fai clic per espandere i modelli supportati

La memorizzazione nella cache esplicita supporta anche gli alias più recenti, tra cui:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Quando utilizzare la memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto è particolarmente adatta agli scenari in cui un contesto iniziale sostanziale viene referenziato ripetutamente dalle richieste successive.

Gli elementi di contesto memorizzati nella cache, come una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione di chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a un testo univoco che comprende ogni turno della chat.

Prendi in considerazione l'utilizzo della memorizzazione nella cache del contesto per casi d'uso come:

  • Chatbot con istruzioni di sistema dettagliate
  • Analisi ripetitiva di file video di grandi dimensioni
  • Query ricorrenti su grandi set di documenti
  • Analisi frequente del repository di codice o correzione di bug

La memorizzazione nella cache implicita ed esplicita è supportata con il throughput riservato in anteprima. Per saperne di più, consulta la guida al Throughput riservato. Le cache funzionano con tutti i tipi di traffico. Ad esempio, una cache creata durante l'utilizzo del throughput riservato funziona anche con PayGo.

Disponibilità

La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'AI generativa su Gemini Enterprise Agent Platform. Per saperne di più, consulta Località dell'AI generativa su Gemini Enterprise Agent Platform.

Limiti

I contenuti memorizzati esplicitamente nella cache devono rispettare i limiti indicati nella tabella seguente:

Limiti di memorizzazione nella cache del contesto

Numero minimo di token cache per la memorizzazione nella cache implicita ed esplicita

  • Modelli Gemini 3 e Gemini 3.1: 4096 token
  • Modelli Gemini 2.0 e 2.5: 2048 token

Dimensione massima dei contenuti che puoi memorizzare nella cache utilizzando un blob o un testo

10 MB

Tempo minimo prima della scadenza di una cache dopo la creazione

1 minuto

Tempo massimo prima della scadenza di una cache dopo la creazione

Non esiste una durata massima della cache

Supporto dei Controlli di servizio VPC

La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro di servizio. Se utilizzi Cloud Storage per creare la cache, includi anche il bucket nel perimetro di servizio per proteggere i contenuti della cache.

Per saperne di più, consulta Controlli di servizio VPC con Gemini Enterprise Agent Platform nella documentazione di Gemini Enterprise Agent Platform.

Passaggi successivi