Descripción general del almacenamiento en caché de contexto

El almacenamiento en caché de contexto ayuda a reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido. Vertex AI ofrece dos tipos de almacenamiento en caché:

  • Almacenamiento en caché implícito: Es el almacenamiento en caché automático habilitado de forma predeterminada que proporciona ahorros de costos cuando se producen aciertos de caché.
  • Almacenamiento en caché explícito: Es el almacenamiento en caché manual habilitado con la API de Vertex AI, en el que declaras de forma explícita el contenido que deseas almacenar en caché y si tus instrucciones deben hacer referencia al contenido almacenado en caché.

Para el almacenamiento en caché implícito y explícito, el cachedContentTokenCount campo en los metadatos de tu respuesta indica la cantidad de tokens en la parte almacenada en caché de tu entrada.

Costos de almacenamiento en caché

Para el almacenamiento en caché implícito y explícito, se te factura por los tokens de entrada que se usan para crear la caché al precio estándar de los tokens de entrada. Para el almacenamiento en caché explícito, también hay costos de almacenamiento según el tiempo que se almacenan las cachés. No hay costos de almacenamiento para el almacenamiento en caché implícito. Para obtener más información, consulta los precios de Vertex AI.

Almacenamiento en caché implícito

Todos los Google Cloud proyectos tienen habilitado el almacenamiento en caché implícito de forma predeterminada. El almacenamiento en caché implícito proporciona un descuento del 90% en los tokens almacenados en caché en comparación con los tokens de entrada estándar.

Cuando está habilitado, los ahorros de costos por acierto de caché implícitos se transfieren automáticamente a. Para aumentar las posibilidades de un acierto de caché implícito, haz lo siguiente:

  • Coloca contenido grande y común al comienzo de tu instrucción.
  • Envía solicitudes con un prefijo similar en un período breve.

Modelos compatibles

El almacenamiento en caché implícito es compatible cuando se usan los siguientes modelos:

El almacenamiento en caché implícito también admite los alias más recientes, incluidos los siguientes:

  • gemini-flash-latest
  • gemini-flash-lite-latest

El almacenamiento en caché implícito también admite modelos abiertos. Para obtener más información, consulta Modelos abiertos de Vertex AI para MaaS.

Almacenamiento en caché explícito

El almacenamiento en caché explícito ofrece más control y garantiza un descuento cuando se hace referencia a cachés explícitas. Es decir, un descuento en los tokens de entrada que hacen referencia a una caché de contexto existente. En los modelos Gemini 2.5 o posteriores, este descuento es del 90%, mientras que en los modelos Gemini 2.0 es del 75%.

Con la API de Vertex AI, puedes hacer lo siguiente:

También puedes usar la API de Vertex AI para recuperar información sobre una caché de contexto.

Las cachés explícitas interactúan con el almacenamiento en caché implícito, lo que puede generar almacenamiento en caché adicional más allá del contenido especificado cuando se crea una caché. Para evitar la retención de datos de caché, inhabilita el almacenamiento en caché implícito y evita crear cachés explícitas. Para obtener más información, consulta Habilita e inhabilita el almacenamiento en caché.

Modelos compatibles

El almacenamiento en caché explícito es compatible cuando se usan los siguientes modelos:

El almacenamiento en caché explícito también admite los alias más recientes, incluidos los siguientes:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento en caché de contexto es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.

Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video , se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en el mensaje también incluyen texto único para cada mensaje. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat.

Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:

  • Chatbots con instrucciones del sistema extensas
  • Análisis repetitivo de archivos de video largos
  • Consultas recurrentes en grandes conjuntos de documentos
  • Análisis frecuente de repositorios de código o corrección de errores

El almacenamiento en caché implícito y explícito es compatible con la Capacidad de procesamiento aprovisionada en la versión preliminar. Consulta la guía de la Capacidad de procesamiento aprovisionada para obtener más detalles. Las cachés funcionan en todos los tipos de tráfico. Por ejemplo, una caché creada mientras se usa la Capacidad de procesamiento aprovisionada también funciona con PayGo.

Disponibilidad

La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI.

Límites

El contenido que almacenas en caché de forma explícita debe cumplir con los límites que se muestran en la siguiente tabla:

Límites de almacenamiento en caché de contexto

Cantidad mínima de tokens de caché para el almacenamiento en caché implícito y explícito

  • Modelos Gemini 3 y Gemini 3.1: 4,096 tokens
  • Modelos Gemini 2.0 y 2.5: 2,048 tokens

Tamaño máximo del contenido que puedes almacenar en caché con un objeto binario grande o texto

10 MB

Tiempo mínimo antes de que venza una caché después de su creación

1 minuto

Tiempo máximo antes de que venza una caché después de su creación

No hay una duración máxima de la caché

Compatibilidad con los Controles del servicio de VPC

El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede filtrar fuera del perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye también tu bucket en el perímetro de servicio para proteger el contenido de la caché.

Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.

¿Qué sigue?