Vertex AI sta diventando parte di Gemini Enterprise Agent Platform. Per informazioni aggiornate, consulta la documentazione di Agent Platform.

Panoramica della memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto contribuisce a ridurre il costo e la latenza delle richieste a Gemini che contengono contenuti ripetuti. Vertex AI offre due tipi di memorizzazione nella cache:

Memorizzazione nella cache implicita: memorizzazione nella cache automatica attivata per impostazione predefinita che consente di risparmiare sui costi quando si verificano hit della cache.
Memorizzazione nella cache esplicita: memorizzazione nella cache manuale attivata utilizzando l'API Vertex AI, in cui dichiari esplicitamente i contenuti che vuoi memorizzare nella cache e se i prompt devono o meno fare riferimento ai contenuti memorizzati nella cache.

Sia per la memorizzazione nella cache implicita sia per quella esplicita, il cachedContentTokenCount campo nei metadati della risposta indica il numero di token nella parte memorizzata nella cache dell'input.

Costi di archiviazione nella cache

Sia per la memorizzazione nella cache implicita sia per quella esplicita, ti vengono addebitati i token di input utilizzati per creare la cache al prezzo standard dei token di input. Per la memorizzazione nella cache esplicita, sono previsti anche costi di archiviazione in base alla durata di archiviazione delle cache. Non sono previsti costi di archiviazione per la memorizzazione nella cache implicita. Per ulteriori informazioni, consulta i prezzi di Vertex AI.

Memorizzazione nella cache implicita

Per impostazione predefinita, la memorizzazione nella cache implicita è abilitata per tutti i Google Cloud progetti. La memorizzazione nella cache implicita offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard.

Quando è abilitata, i risparmi sui costi per successo della cache implicita vengono trasferiti automaticamente. Per aumentare le probabilità di un successo della cache implicita:

Inserisci i contenuti di grandi dimensioni e comuni all'inizio del prompt.
Invia richieste con un prefisso simile in un breve periodo di tempo.

Modelli supportati

La memorizzazione nella cache implicita è supportata quando utilizzi i seguenti modelli:

Anteprima di Gemini 3.1 Flash-Lite
Gemini 3.1 Pro anteprima
Anteprima di Gemini 3 Flash
Gemini 2.5 Pro
Anteprima di Gemini 2.5 Flash
Gemini 2.5 Flash-Lite Anteprima
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

La memorizzazione nella cache implicita supporta anche gli alias più recenti, tra cui:

gemini-flash-latest
gemini-flash-lite-latest

La memorizzazione nella cache implicita supporta anche i modelli aperti. Per ulteriori informazioni, consulta Modelli aperti di Vertex AI per MaaS.

Memorizzazione nella cache esplicita

La memorizzazione nella cache esplicita offre un maggiore controllo e garantisce uno sconto quando si fa riferimento alle cache esplicite. Ovvero, uno sconto sui token di input che fanno riferimento a una cache di contesto esistente. Sui modelli Gemini 2.5 o successivi, questo sconto è del 90%, mentre sui modelli Gemini 2.0 è del 75%.

Utilizzando l'API Vertex AI, puoi:

Creare cache di contesto e controllarle in modo più efficace.
Utilizzare una cache di contesto facendo riferimento ai suoi contenuti in una richiesta di prompt con il relativo nome risorsa.
Aggiornare il tempo di scadenza (Time to Live o TTL) di una cache di contesto oltre i 60 minuti predefiniti.
Eliminare una cache di contesto quando non è più necessaria.

Puoi anche utilizzare l'API Vertex AI per recuperare informazioni su una cache di contesto.

Le cache esplicite interagiscono con la memorizzazione nella cache implicita, il che potrebbe comportare una memorizzazione nella cache aggiuntiva oltre ai contenuti specificati quando si crea una cache. Per impedire la conservazione dei dati della cache, disattiva la memorizzazione nella cache implicita ed evita di creare cache esplicite. Per ulteriori informazioni, consulta Attivare e disattivare la memorizzazione nella cache.

Modelli supportati

La memorizzazione nella cache esplicita è supportata quando utilizzi i seguenti modelli:

Anteprima di Gemini 3.1 Flash-Lite
Gemini 3.1 Pro anteprima
Anteprima di Gemini 3 Flash
Gemini 2.5 Pro
Anteprima di Gemini 2.5 Flash
Gemini 2.5 Flash-Lite Anteprima
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

La memorizzazione nella cache esplicita supporta anche gli alias più recenti, tra cui:

gemini-flash-latest
gemini-flash-lite-latest

Quando utilizzare la memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto è particolarmente adatta agli scenari in cui un contesto iniziale sostanziale viene fatto riferimento ripetutamente dalle richieste successive.

Gli elementi del contesto memorizzati nella cache, come una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione di chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a testo univoco che comprende ogni turno nella chat.

Valuta la possibilità di utilizzare la memorizzazione nella cache del contesto per casi d'uso come:

Chatbot con istruzioni di sistema estese
Analisi ripetitiva di file video lunghi
Query ricorrenti su set di documenti di grandi dimensioni
Analisi frequente del repository di codice o correzione di bug

La memorizzazione nella cache implicita ed esplicita è supportata con il throughput riservato in anteprima. Per ulteriori dettagli, consulta la guida al throughput riservato. Le cache funzionano con tutti i tipi di traffico. Ad esempio, una cache creata durante l'utilizzo del throughput riservato funziona anche con il modello di pagamento Pay as you go.

Disponibilità

La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'AI generativa su Vertex AI. Per ulteriori informazioni, consulta Località dell'AI generativa su Vertex AI.

Limiti

I contenuti memorizzati nella cache in modo esplicito devono rispettare i limiti indicati nella tabella seguente:

Limiti di memorizzazione nella cache del contesto
Numero minimo di token della cache per la memorizzazione nella cache implicita ed esplicita	Modelli Gemini 3 e Gemini 3.1: 4096 token Modelli Gemini 2.0 e 2.5: 2048 token
Dimensione massima dei contenuti che puoi memorizzare nella cache utilizzando un blob o un testo	10 MB
Tempo minimo prima della scadenza di una cache dopo la creazione	1 minuto
Tempo massimo prima della scadenza di una cache dopo la creazione	Non esiste una durata massima della cache

Supporto dei Controlli di servizio VPC

La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro di servizio. Se utilizzi Cloud Storage per creare la cache, includi anche il bucket nel perimetro di servizio per proteggere i contenuti della cache.

Per ulteriori informazioni, consulta Controlli di servizio VPC con Vertex AI nella documentazione di Vertex AI.

Passaggi successivi

Scopri di più su l'API Gemini.
Scopri come utilizzare i prompt multimodali.

Panoramica della memorizzazione nella cache del contesto Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Costi di archiviazione nella cache

Memorizzazione nella cache implicita

Modelli supportati

Memorizzazione nella cache esplicita

Modelli supportati

Quando utilizzare la memorizzazione nella cache del contesto

Disponibilità

Limiti

Supporto dei Controlli di servizio VPC

Passaggi successivi

Panoramica della memorizzazione nella cache del contesto