La mise en cache du contexte permet de réduire le coût et la latence des requêtes envoyées à Gemini qui contiennent du contenu répété. Vertex AI propose deux types de mise en cache :
- Mise en cache implicite : mise en cache automatique activée par défaut qui permet de réaliser des économies en cas de succès du cache.
- Mise en cache explicite : mise en cache manuelle activée à l'aide de l'API Vertex AI, où vous déclarez explicitement le contenu que vous souhaitez mettre en cache et si vos requêtes doivent ou non faire référence au contenu mis en cache.
Pour la mise en cache implicite et explicite, le champ cachedContentTokenCount
dans les métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache de votre entrée. Les requêtes de mise en cache doivent contenir au moins 2 048 jetons.
Coûts de stockage de la mise en cache
Pour la mise en cache implicite et explicite, aucun frais supplémentaire n'est facturé pour l'écriture dans le cache, en dehors des coûts standards des jetons d'entrée. Pour la mise en cache explicite, des coûts de stockage s'appliquent en fonction de la durée de stockage des caches. La mise en cache implicite n'entraîne aucun coût de stockage. Pour en savoir plus, consultez les tarifs de Vertex AI.
Mise en cache implicite
La mise en cache implicite est activée par défaut pour tous les projets Google Cloud . La mise en cache implicite offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards.
Lorsque cette option est activée, les économies de coûts liées succès de cache (hit) implicites vous sont automatiquement répercutées. Pour augmenter les chances d'un accès implicite au cache :
- Placez les contenus volumineux et courants au début de votre requête.
- Envoyer des requêtes avec un préfixe similaire en peu de temps.
Modèles compatibles
La mise en cache implicite est compatible avec les modèles suivants :
- Gemini 2.5 Flash (preview)
- Gemini 2.5 Flash-Lite (preview)
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
La mise en cache implicite est également compatible avec les alias les plus récents, y compris :
gemini-flash-latest
gemini-flash-lite-latest
Mise en cache explicite
La mise en cache explicite offre plus de contrôle et garantit une remise lorsque des caches explicites sont référencés. Sur les modèles Gemini 2.5, cette remise est de 90 %, et sur les modèles Gemini 2.0, elle est de 75 %.
Grâce à l'API Vertex AI, vous pouvez :
- Créez des caches de contexte et contrôlez-les plus efficacement.
- Utilisez un cache de contexte en référençant son contenu dans une requête avec son nom de ressource.
- Modifiez le délai d'expiration (ou durée de vie) d'un cache de contexte pour qu'il dépasse les 60 minutes par défaut.
- Supprimez un cache de contexte lorsqu'il n'est plus nécessaire.
Vous pouvez également utiliser l'API Vertex AI pour récupérer des informations sur un cache de contexte.
Les caches explicites interagissent avec la mise en cache implicite, ce qui peut entraîner une mise en cache supplémentaire au-delà des contenus spécifiés lors de la création d'un cache. Pour éviter la conservation des données du cache, désactivez la mise en cache implicite et évitez de créer des caches explicites. Pour en savoir plus, consultez Activer et désactiver la mise en cache.
Modèles compatibles
La mise en cache explicite est acceptée lorsque vous utilisez les modèles suivants :
- Gemini 2.5 Flash (preview)
- Gemini 2.5 Flash-Lite (preview)
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
La mise en cache explicite est également compatible avec les derniers alias, y compris :
gemini-flash-latest
gemini-flash-lite-latest
Quand utiliser la mise en cache de contexte
La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes ultérieures.
Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans la requête incluent également du texte unique pour chaque requête. Par exemple, chaque requête qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation.
Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :
- Chatbots avec des instructions système détaillées
- Analyse répétitive de fichiers vidéo longs
- Requêtes récurrentes sur des ensembles de documents volumineux
- Analyse fréquente du dépôt de code ou correction de bugs
La mise en cache du contexte pour le débit provisionné est en preview pour la mise en cache implicite. La mise en cache explicite n'est pas compatible avec le débit provisionné. Pour en savoir plus, consultez le guide sur le débit provisionné.
Disponibilité
La mise en cache du contexte est disponible dans les régions où l'IA générative sur Vertex AI est disponible. Pour en savoir plus, consultez Emplacements compatibles avec l'IA générative sur Vertex AI.
Limites
Le contenu que vous mettez explicitement en cache doit respecter les limites indiquées dans le tableau suivant :
Limites de la mise en cache du contexte | |
---|---|
Nombre minimal de jetons du cache |
2,048 pour tous les modèles
|
Taille maximale du contenu que vous pouvez mettre en cache à l'aide d'un blob ou d'un texte |
10 Mo |
Délai minimal d'expiration d'un cache après sa création |
1 minute |
Délai maximal d'expiration d'un cache après sa création |
Aucune durée maximale pour un cache |
Compatibilité avec VPC Service Controls
La mise en cache du contexte est compatible avec VPC Service Controls, ce qui signifie que votre cache ne peut pas être exfiltré au-delà de votre périmètre de service. Si vous utilisez Cloud Storage pour créer votre cache, incluez également votre bucket dans votre périmètre de service afin de protéger le contenu de votre cache.
Pour en savoir plus, consultez VPC Service Controls avec Vertex AI dans la documentation Vertex AI.
Étapes suivantes
- En savoir plus sur l'API Gemini
- Découvrez comment utiliser les requêtes multimodales.