Les modèles Anthropic Claude proposent une mise en cache des requêtes pour réduire la latence et les coûts lorsque le même contenu est réutilisé dans plusieurs requêtes. Lorsque vous envoyez une requête, vous pouvez mettre en cache tout ou partie de votre entrée afin que les requêtes suivantes puissent utiliser les résultats mis en cache de la requête précédente. Cela évite des coûts de calcul et de réseau supplémentaires. Les caches sont propres à votre projet Google Cloud et ne peuvent pas être utilisés par d'autres projets.
Pour savoir comment structurer vos requêtes, consultez la documentation Anthropic sur la mise en cache des requêtes.
Traitement des données
La mise en cache explicite des requêtes Anthropic est une fonctionnalité des modèles Anthropic Claude. L'offre Vertex AI de ces modèles Anthropic se comporte comme décrit dans la documentation Anthropic.
La mise en cache des requêtes est une fonctionnalité facultative. Claude calcule les hachages (empreintes digitales) des requêtes pour les clés de mise en cache. Ces hachages ne sont calculés que pour les requêtes pour lesquelles la mise en cache est activée.
Bien que la mise en cache des requêtes soit une fonctionnalité implémentée par les modèles Claude, du point de vue du traitement des données, Google considère ces hachages comme un type de "métadonnées utilisateur". Elles sont traitées comme des "Données de service" client en vertu de l'Google CloudAvis de confidentialité et non comme des "Données client" en vertu de l'Avenant relatif au traitement des données dans le cloud (Clients). En particulier, les protections supplémentaires pour les "Données client" ne s'appliquent pas à ces hachages. Google n'utilise pas ces hachages à d'autres fins.
Si vous souhaitez désactiver complètement cette fonctionnalité de mise en cache des invites et la rendre indisponible dans certains projets Google Cloud , vous pouvez en faire la demande en contactant le service client et en fournissant les numéros de projet concernés. Une fois la mise en cache explicite désactivée pour un projet, les requêtes provenant du projet avec la mise en cache des requêtes activée sont refusées.
Utiliser la mise en cache des requêtes
Vous pouvez utiliser le SDK Anthropic Claude ou l'API REST Vertex AI pour envoyer des requêtes au point de terminaison Vertex AI.
Pour en savoir plus, consultez Fonctionnement de la mise en cache des requêtes.
Pour obtenir d'autres exemples, consultez la section Exemples de mise en cache des requêtes dans la documentation Anthropic.
La mise en cache se produit automatiquement lorsque les requêtes ultérieures contiennent le même texte, les mêmes images et le même paramètre cache_control que la première requête. Toutes les requêtes doivent également inclure le paramètre cache_control dans les mêmes blocs.
Par défaut, le cache a une durée de vie (ou TTL, Time to Live) de cinq minutes. Vous pouvez étendre le TTL à une heure en définissant "ttl": "1h" dans l'objet cache_control. La durée de vie du cache est actualisée chaque fois que le contenu mis en cache est consulté. Pour en savoir plus, consultez Durée du cache d'une heure.
La TTL de vie d'une heure n'est pas disponible pour les modèles suivants : Claude 3.7 Sonnet, Claude 3.5 Sonnet v2, Claude 3.5 Sonnet et Claude 3 Opus.
Tarifs
La mise en cache des requêtes peut avoir une incidence sur les coûts de facturation. Remarques :
- Les jetons d'écriture du cache avec une durée de vie de cinq minutes coûtent 25 % plus cher que les jetons d'entrée de base.
- Les jetons d'écriture du cache d'une durée de vie d'une heure sont 100 % plus chers que les jetons d'entrée de base.
- Les jetons de lecture du cache sont 90 % moins chers que les jetons d'entrée de base.
- Les jetons d'entrée et de sortie standards sont facturés aux tarifs standards.
Pour en savoir plus, consultez la page Tarifs.