La mise en cache de contexte permet de réduire le coût et la latence des requêtes adressées à Gemini qui contiennent du contenu répété. Gemini Enterprise Agent Platform propose deux types de mise en cache :
- Mise en cache implicite : mise en cache automatique activée par défaut qui permet de réaliser des économies lorsque des succès de cache se produisent.
- Mise en cache explicite : mise en cache manuelle activée à l'aide de l'API Gemini Enterprise, dans laquelle vous déclarez explicitement le contenu que vous souhaitez mettre en cache et si vos requêtes doivent ou non faire référence au contenu mis en cache.
Pour la mise en cache implicite et explicite, le cachedContentTokenCount
champ des métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache
de votre entrée.
Coûts de stockage de la mise en cache
Pour la mise en cache implicite et explicite, vous êtes facturé pour les jetons d'entrée utilisés pour créer le cache au prix standard des jetons d'entrée. Pour la mise en cache explicite, des coûts de stockage sont également facturés en fonction de la durée de stockage des caches. La mise en cache implicite n'entraîne aucun coût de stockage. Pour en savoir plus, consultez Tarifs d'Agent Platform.
Mise en cache implicite
La mise en cache implicite est activée par défaut pour tous les Google Cloud projets. Elle offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards.
Lorsqu'elle est activée, les économies réalisées grâce aux succès de cache implicite vous sont automatiquement répercutées. Pour augmenter les chances de succès de cache (hit) implicite :
- Placez les contenus volumineux et courants au début de votre requête.
- Envoyez des requêtes avec un préfixe similaire dans un court laps de temps.
Modèles compatibles
La mise en cache implicite est compatible avec les modèles suivants :
- Gemini 3.1 Flash-Lite ()
- Gemini 3.1 Pro ()
- Gemini 3 Flash ()
- Gemini 3 Pro ()
- Gemini 2.5 Pro
- Gemini 2.5 Flash ()
- Gemini 2.5 Flash-Lite ()
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
La mise en cache implicite est également compatible avec les derniers alias, y compris :
gemini-flash-latestgemini-flash-lite-latest
La mise en cache implicite est également compatible avec les modèles ouverts. Pour en savoir plus, consultez Modèles ouverts d'Agent Platform pour MaaS.
Mise en cache explicite
La mise en cache explicite offre plus de contrôle et garantit une remise sur les jetons d'entrée qui font référence à un cache de contexte existant. Sur les modèles Gemini 2.5 ou ultérieurs, cette remise est de 90 % ; sur les modèles Gemini 2.0, elle est de 75 %.
Grâce à l'API Gemini Enterprise, vous pouvez effectuer les actions suivantes :
- Créer des caches de contexte et les contrôler plus efficacement.
- Utiliser un cache de contexte en référençant son contenu dans une requête avec son nom de ressource.
- Modifier le délai d'expiration (TTL, Time To Live) d'un cache de contexte au-delà des 60 minutes par défaut.
- Supprimer un cache de contexte lorsqu'il n'est plus nécessaire.
Vous pouvez également utiliser l'API Gemini Enterprise pour récupérer des informations sur un cache de contexte.
Les caches explicites interagissent avec la mise en cache implicite, ce qui peut entraîner une mise en cache supplémentaire au-delà du contenu spécifié lors de la création d'un cache. Pour éviter la conservation des données de cache, désactivez la mise en cache implicite et évitez de créer des caches explicites. Pour en savoir plus, consultez Activer et désactiver la mise en cache.
Modèles compatibles
La mise en cache explicite est compatible avec les modèles suivants :
- Gemini 3.1 Flash-Lite ()
- Gemini 3.1 Pro ()
- Gemini 3 Flash ()
- Gemini 3 Pro ()
- Gemini 2.5 Pro
- Gemini 2.5 Flash ()
- Gemini 2.5 Flash-Lite ()
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
La mise en cache explicite est également compatible avec les derniers alias, y compris :
gemini-flash-latestgemini-flash-lite-latest
Quand utiliser la mise en cache de contexte
La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes ultérieures.
Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans le prompt incluent également du texte unique pour chaque prompt. Par exemple, chaque prompt qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation.
Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :
- Chatbots avec des instructions système détaillées
- Analyse répétitive de fichiers vidéo longs
- Requêtes récurrentes sur des ensembles de documents volumineux
- Analyse fréquente du dépôt de code ou correction de bugs
La mise en cache implicite et explicite est compatible avec le débit provisionné en preview. Pour en savoir plus, consultez le guide sur le débit provisionné. Les caches fonctionnent avec tous les types de trafic. Par exemple, un cache créé lors de l'utilisation du débit provisionné fonctionne également avec le paiement à l'utilisation.
Disponibilité
La mise en cache de contexte est disponible dans les régions où l'IA générative sur Gemini Enterprise Agent Platform est disponible. Pour en savoir plus, consultez la page IA générative dans les emplacements Gemini Enterprise Agent Platform locations.
Limites
Le contenu que vous mettez explicitement en cache doit respecter les limites indiquées dans le tableau suivant :
| Limites de la mise en cache du contexte | |
|---|---|
Nombre minimal de jetons de cache pour la mise en cache implicite et explicite |
|
Taille maximale du contenu que vous pouvez mettre en cache à l'aide d'un blob ou d'un texte |
10 Mo |
Délai minimal d'expiration d'un cache après sa création |
1 minute |
Délai maximal avant l'expiration d'un cache après sa création |
Aucune durée maximale pour un cache |
Compatibilité avec VPC Service Controls
La mise en cache de contexte est compatible avec VPC Service Controls, ce qui signifie que votre cache ne peut pas être exfiltré au-delà de votre périmètre de service. Si vous utilisez Cloud Storage pour créer votre cache, incluez également votre bucket dans votre périmètre de service afin de protéger le contenu de votre cache.
Pour en savoir plus, consultez VPC Service Controls avec Gemini Enterprise Agent Platform dans la documentation de Gemini Enterprise Agent Platform.
Étape suivante
- En savoir plus sur l'API Gemini
- Découvrez comment utiliser les requêtes multimodales.