Cette page a été traduite par l'API Cloud Translation.

Présentation de la mise en cache de contexte

La mise en cache du contexte permet de réduire le coût et la latence des requêtes envoyées à Gemini qui contiennent du contenu répété. Vertex AI propose deux types de mise en cache :

Mise en cache implicite : mise en cache automatique activée par défaut qui permet de réaliser des économies en cas de succès du cache.
Mise en cache explicite : mise en cache manuelle activée à l'aide de l'API Vertex AI, où vous déclarez explicitement le contenu que vous souhaitez mettre en cache et si vos requêtes doivent ou non faire référence au contenu mis en cache.

Pour la mise en cache implicite et explicite, le champ cachedContentTokenCount dans les métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache de votre entrée. Les requêtes de mise en cache doivent contenir au moins 2 048 jetons.

Coûts de stockage de la mise en cache

Pour la mise en cache implicite et explicite, vous êtes facturé pour les jetons d'entrée utilisés pour créer le cache au prix standard des jetons d'entrée. Pour la mise en cache explicite, des coûts de stockage s'appliquent également en fonction de la durée de stockage des caches. La mise en cache implicite n'entraîne aucun coût de stockage. Pour en savoir plus, consultez les tarifs de Vertex AI.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les projets Google Cloud . La mise en cache implicite offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards.

Lorsque cette option est activée, les économies de coûts liées succès de cache (hit) implicites vous sont automatiquement répercutées. Pour augmenter les chances d'un accès implicite au cache :

Placez les contenus volumineux et courants au début de votre requête.
Envoyer des requêtes avec un préfixe similaire en peu de temps.

Modèles compatibles

La mise en cache implicite est compatible avec les modèles suivants :

Gemini 3 Pro Modèle en preview
Gemini 2.5 Pro
Gemini 2.5 Flash Modèle en preview
Gemini 2.5 Flash-Lite Modèle en prévisualisation
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

La mise en cache implicite est également compatible avec les derniers alias, y compris :

gemini-flash-latest
gemini-flash-lite-latest

Mise en cache explicite

La mise en cache explicite offre plus de contrôle et garantit une remise lorsque des caches explicites sont référencés. Autrement dit, une remise sur les jetons d'entrée faisant référence à un cache de contexte existant. Sur les modèles Gemini 2.5, cette remise est de 90 %, et sur les modèles Gemini 2.0, elle est de 75 %.

Grâce à l'API Vertex AI, vous pouvez :

Créez des caches de contexte et contrôlez-les plus efficacement.
Utilisez un cache de contexte en référençant son contenu dans une requête avec son nom de ressource.
Modifiez le délai d'expiration (ou durée de vie) d'un cache de contexte au-delà des 60 minutes par défaut.
Supprimez un cache de contexte lorsqu'il n'est plus nécessaire.

Vous pouvez également utiliser l'API Vertex AI pour récupérer des informations sur un cache de contexte.

Les caches explicites interagissent avec la mise en cache implicite, ce qui peut entraîner une mise en cache supplémentaire au-delà des contenus spécifiés lors de la création d'un cache. Pour éviter la conservation des données du cache, désactivez la mise en cache implicite et évitez de créer des caches explicites. Pour en savoir plus, consultez Activer et désactiver la mise en cache.

Modèles compatibles

La mise en cache explicite est acceptée lorsque vous utilisez les modèles suivants :

Gemini 3 Pro Modèle en preview
Gemini 2.5 Pro
Gemini 2.5 Flash Modèle en preview
Gemini 2.5 Flash-Lite Modèle en prévisualisation
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

La mise en cache explicite est également compatible avec les derniers alias, y compris :

gemini-flash-latest
gemini-flash-lite-latest

Quand utiliser la mise en cache de contexte

La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes ultérieures.

Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans la requête incluent également du texte unique pour chaque requête. Par exemple, chaque requête qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation.

Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :

Chatbots avec des instructions système détaillées
Analyse répétitive de fichiers vidéo longs
Requêtes récurrentes sur des ensembles de documents volumineux
Analyse fréquente du dépôt de code ou correction de bugs

La mise en cache implicite et explicite est compatible avec le débit provisionné en version preview. Pour en savoir plus, consultez le guide sur le débit provisionné.

Disponibilité

La mise en cache du contexte est disponible dans les régions où l'IA générative sur Vertex AI est disponible. Pour en savoir plus, consultez Emplacements compatibles avec l'IA générative sur Vertex AI.

Limites

Le contenu que vous mettez explicitement en cache doit respecter les limites indiquées dans le tableau suivant :

Limites de la mise en cache du contexte
Nombre minimal de jetons du cache	`2,048` pour tous les modèles
Taille maximale du contenu que vous pouvez mettre en cache à l'aide d'un blob ou d'un texte	10 Mo
Délai minimal d'expiration d'un cache après sa création	1 minute
Délai maximal d'expiration d'un cache après sa création	Aucune durée maximale pour un cache

Compatibilité avec VPC Service Controls

La mise en cache du contexte est compatible avec VPC Service Controls, ce qui signifie que votre cache ne peut pas être exfiltré au-delà de votre périmètre de service. Si vous utilisez Cloud Storage pour créer votre cache, incluez également votre bucket dans votre périmètre de service afin de protéger le contenu de votre cache.

Pour en savoir plus, consultez VPC Service Controls avec Vertex AI dans la documentation Vertex AI.

Étapes suivantes

En savoir plus sur l'API Gemini
Découvrez comment utiliser les requêtes multimodales.

Présentation de la mise en cache de contexte Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Coûts de stockage de la mise en cache

Mise en cache implicite

Modèles compatibles

Mise en cache explicite

Modèles compatibles

Quand utiliser la mise en cache de contexte

Disponibilité

Limites

Compatibilité avec VPC Service Controls

Étapes suivantes

Présentation de la mise en cache de contexte