Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Descripción general del almacenamiento en caché de contexto

El almacenamiento en caché del contexto ayuda a reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido. Vertex AI ofrece dos tipos de almacenamiento en caché:

Almacenamiento en caché implícito: Es el almacenamiento en caché automático habilitado de forma predeterminada que proporciona ahorros de costos cuando se producen aciertos de caché.
Almacenamiento en caché explícito: Almacenamiento en caché manual habilitado con la API de Vertex AI, en el que declaras de forma explícita el contenido que deseas almacenar en caché y si tus instrucciones deben hacer referencia al contenido almacenado en caché.

Tanto para el almacenamiento en caché implícito como para el explícito, el campo cachedContentTokenCount en los metadatos de tu respuesta indica la cantidad de tokens en la parte almacenada en caché de tu entrada.

Costos de almacenamiento en caché

Tanto para el almacenamiento en caché implícito como para el explícito, se te facturan los tokens de entrada que se usan para crear la caché al precio estándar de los tokens de entrada. En el caso del almacenamiento en caché explícito, también hay costos de almacenamiento según el tiempo que se almacenan los datos en caché. No hay costos de almacenamiento para el almacenamiento en caché implícito. Para obtener más información, consulta los precios de Vertex AI.

Almacenamiento en caché implícito

Todos los proyectos de Google Cloud tienen habilitado el almacenamiento en caché implícito de forma predeterminada. El almacenamiento en caché implícito proporciona un 90% de descuento en los tokens almacenados en caché en comparación con los tokens de entrada estándar.

Cuando está habilitada, los ahorros de costos por acierto de caché implícitos se te transfieren automáticamente. Para aumentar las probabilidades de un acierto de caché implícito, haz lo siguiente:

Coloca el contenido grande y común al principio de la instrucción.
Envía solicitudes con un prefijo similar en un período corto.

Modelos compatibles

El almacenamiento en caché implícito se admite cuando se usan los siguientes modelos:

El almacenamiento en caché implícito también admite los alias más recientes, incluidos los siguientes:

gemini-flash-latest
gemini-flash-lite-latest

El almacenamiento en caché implícito también admite los modelos abiertos. Para obtener más información, consulta Modelos abiertos de Vertex AI para MaaS.

Almacenamiento en caché explícito

El almacenamiento en caché explícito ofrece más control y garantiza un descuento cuando se hace referencia a cachés explícitas. Es decir, un descuento en los tokens de entrada que hacen referencia a una caché de contexto existente. En los modelos Gemini 2.5 o posteriores, este descuento es del 90%, mientras que en los modelos Gemini 2.0 es del 75%.

Con la API de Vertex AI, puedes hacer lo siguiente:

Crear cachés de contexto y controlarlas de manera más eficaz
Usa una caché de contexto haciendo referencia a su contenido en una solicitud de mensaje con su nombre de recurso.
Actualiza el tiempo de vencimiento (tiempo de actividad o TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
Borra una caché de contexto cuando ya no la necesites.

También puedes usar la API de Vertex AI para recuperar información sobre una caché de contexto.

Las cachés explícitas interactúan con el almacenamiento en caché implícito, lo que puede generar almacenamiento en caché adicional más allá del contenido especificado cuando se crea una caché. Para evitar la retención de datos en la caché, inhabilita el almacenamiento en caché implícito y evita crear cachés explícitas. Para obtener más información, consulta Habilita e inhabilita el almacenamiento en caché.

Modelos compatibles

Se admite el almacenamiento en caché explícito cuando se usan los siguientes modelos:

El almacenamiento en caché explícito también admite los alias más recientes, incluidos los siguientes:

gemini-flash-latest
gemini-flash-lite-latest

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento en caché del contexto es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.

Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en la instrucción también incluyen texto único para cada instrucción. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat.

Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:

Chatbots con instrucciones del sistema detalladas
Análisis repetitivo de archivos de video extensos
Consultas recurrentes en grandes conjuntos de documentos
Análisis frecuente del repositorio de código o corrección de errores

El almacenamiento en caché implícito y explícito se admiten con la capacidad de procesamiento aprovisionada en la versión preliminar. Consulta la guía de capacidad de procesamiento aprovisionada para obtener más detalles. Las memorias caché funcionan en todos los tipos de tráfico. Por ejemplo, una caché creada con la capacidad de procesamiento aprovisionada también funciona con el modelo de pago por uso.

Disponibilidad

La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta Ubicaciones de la IA generativa en Vertex AI.

Límites

El contenido que almacenes en caché de forma explícita debe cumplir con los límites que se muestran en la siguiente tabla:

Límites del almacenamiento de contexto en caché
Cantidad mínima de tokens de caché para el almacenamiento en caché implícito y explícito	Modelos de Gemini 3 y Gemini 3.1: 4,096 tokens Modelos Gemini 2.0 y 2.5: 2,048 tokens
Tamaño máximo del contenido que puedes almacenar en caché con un BLOB o texto	10 MB
Tiempo mínimo antes de que venza una caché después de su creación	1 minuto
Tiempo máximo antes de que venza una caché después de su creación	No hay una duración máxima de la caché.

Compatibilidad con los Controles del servicio de VPC

El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede filtrar fuera de tu perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye tu bucket en el perímetro de servicio también para proteger el contenido de la caché.

Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.

¿Qué sigue?

Obtén más información sobre la API de Gemini.
Obtén más información para usar instrucciones multimodales.

Descripción general del almacenamiento en caché de contexto Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Costos de almacenamiento en caché

Almacenamiento en caché implícito

Modelos compatibles

Almacenamiento en caché explícito

Modelos compatibles

Cuándo usar el almacenamiento en caché de contexto

Disponibilidad

Límites

Compatibilidad con los Controles del servicio de VPC

¿Qué sigue?

Descripción general del almacenamiento en caché de contexto