Présentation de la mise en cache de contexte

La mise en cache du contexte permet de réduire le coût et la latence des requêtes envoyées à Gemini qui contiennent du contenu répété. Vertex AI propose deux types de mise en cache :

  • Mise en cache implicite : mise en cache automatique activée par défaut qui permet de réaliser des économies en cas de succès du cache.
  • Mise en cache explicite : mise en cache manuelle activée à l'aide de l'API Vertex AI, où vous déclarez explicitement le contenu que vous souhaitez mettre en cache et si vos requêtes doivent ou non faire référence au contenu mis en cache.

Pour la mise en cache implicite et explicite, le champ cachedContentTokenCount dans les métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache de votre entrée. Les requêtes de mise en cache doivent contenir au moins 2 048 jetons.

Coûts de stockage de la mise en cache

Pour la mise en cache implicite et explicite, aucun frais supplémentaire n'est facturé pour l'écriture dans le cache, en dehors des coûts standards des jetons d'entrée. Pour la mise en cache explicite, des coûts de stockage s'appliquent en fonction de la durée de stockage des caches. La mise en cache implicite n'entraîne aucun coût de stockage. Pour en savoir plus, consultez les tarifs de Vertex AI.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les projets Google Cloud . La mise en cache implicite offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards.

Lorsque cette option est activée, les économies de coûts liées succès de cache (hit) implicites vous sont automatiquement répercutées. Pour augmenter les chances d'un accès implicite au cache :

  • Placez les contenus volumineux et courants au début de votre requête.
  • Envoyer des requêtes avec un préfixe similaire en peu de temps.

Modèles compatibles

La mise en cache implicite est compatible avec les modèles suivants :

La mise en cache implicite est également compatible avec les alias les plus récents, y compris :

  • gemini-flash-latest
  • gemini-flash-lite-latest

Mise en cache explicite

La mise en cache explicite offre plus de contrôle et garantit une remise lorsque des caches explicites sont référencés. Sur les modèles Gemini 2.5, cette remise est de 90 %, et sur les modèles Gemini 2.0, elle est de 75 %.

Grâce à l'API Vertex AI, vous pouvez :

Vous pouvez également utiliser l'API Vertex AI pour récupérer des informations sur un cache de contexte.

Les caches explicites interagissent avec la mise en cache implicite, ce qui peut entraîner une mise en cache supplémentaire au-delà des contenus spécifiés lors de la création d'un cache. Pour éviter la conservation des données du cache, désactivez la mise en cache implicite et évitez de créer des caches explicites. Pour en savoir plus, consultez Activer et désactiver la mise en cache.

Modèles compatibles

La mise en cache explicite est acceptée lorsque vous utilisez les modèles suivants :

La mise en cache explicite est également compatible avec les derniers alias, y compris :

  • gemini-flash-latest
  • gemini-flash-lite-latest

Quand utiliser la mise en cache de contexte

La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes ultérieures.

Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans la requête incluent également du texte unique pour chaque requête. Par exemple, chaque requête qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation.

Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :

  • Chatbots avec des instructions système détaillées
  • Analyse répétitive de fichiers vidéo longs
  • Requêtes récurrentes sur des ensembles de documents volumineux
  • Analyse fréquente du dépôt de code ou correction de bugs

La mise en cache du contexte pour le débit provisionné est en preview pour la mise en cache implicite. La mise en cache explicite n'est pas compatible avec le débit provisionné. Pour en savoir plus, consultez le guide sur le débit provisionné.

Disponibilité

La mise en cache du contexte est disponible dans les régions où l'IA générative sur Vertex AI est disponible. Pour en savoir plus, consultez Emplacements compatibles avec l'IA générative sur Vertex AI.

Limites

Le contenu que vous mettez explicitement en cache doit respecter les limites indiquées dans le tableau suivant :

Limites de la mise en cache du contexte

Nombre minimal de jetons du cache

2,048 pour tous les modèles

Taille maximale du contenu que vous pouvez mettre en cache à l'aide d'un blob ou d'un texte

10 Mo

Délai minimal d'expiration d'un cache après sa création

1 minute

Délai maximal d'expiration d'un cache après sa création

Aucune durée maximale pour un cache

Compatibilité avec VPC Service Controls

La mise en cache du contexte est compatible avec VPC Service Controls, ce qui signifie que votre cache ne peut pas être exfiltré au-delà de votre périmètre de service. Si vous utilisez Cloud Storage pour créer votre cache, incluez également votre bucket dans votre périmètre de service afin de protéger le contenu de votre cache.

Pour en savoir plus, consultez VPC Service Controls avec Vertex AI dans la documentation Vertex AI.

Étapes suivantes