Colocação em cache de comandos

Os modelos Claude da Anthropic oferecem o armazenamento em cache de comandos para reduzir a latência e os custos quando reutilizam o mesmo conteúdo em vários pedidos. Quando envia uma consulta, pode colocar em cache todas ou partes específicas da sua entrada para que as consultas subsequentes possam usar os resultados em cache do pedido anterior. Isto evita custos adicionais de computação e rede. As caches são exclusivas do seu Google Cloud projeto e não podem ser usadas por outros projetos.

Para ver detalhes sobre como estruturar os seus comandos, consulte a documentação da Anthropic sobre a colocação em cache de comandos.

Processamento de dados

A colocação em cache de comandos explícitos da Anthropic é uma funcionalidade dos modelos Claude da Anthropic. A oferta do Vertex AI destes modelos da Anthropic comporta-se conforme descrito na documentação da Anthropic.

O armazenamento em cache de comandos é uma funcionalidade opcional. O Claude calcula os hashes (impressões digitais) dos pedidos para chaves de colocação em cache. Estes hashes só são calculados para pedidos com a colocação em cache ativada.

Embora o armazenamento em cache de comandos seja uma funcionalidade implementada pelos modelos Claude, do ponto de vista do tratamento de dados, a Google considera estes hashes um tipo de "metadados do utilizador". São tratados como "Dados dos Serviços" do cliente ao abrigo do Google Cloud Aviso de Privacidade e não como "Dados do Cliente" ao abrigo da Adenda ao Tratamento de Dados do Cloud (clientes). Em particular, as proteções adicionais para "Dados do Cliente" não se aplicam a estes hashes. A Google não utiliza estes hashes para outros fins.

Se quiser desativar completamente esta funcionalidade de colocação em cache de comandos e torná-la indisponível em projetos específicos, pode solicitá-lo contactando o apoio ao cliente e indicando os números dos projetos relevantes. Google Cloud Depois de desativar a colocação em cache explícita para um projeto, os pedidos do projeto com a colocação em cache de comandos ativada são rejeitados.

Use a colocação em cache de comandos

Pode usar o SDK Anthropic Claude ou a API REST Vertex AI para enviar pedidos para o ponto final da Vertex AI.

Para mais informações, consulte o artigo Como funciona o armazenamento em cache de comandos.

Para ver exemplos adicionais, consulte os exemplos de colocação em cache de comandos na documentação da Anthropic.

O armazenamento em cache ocorre automaticamente quando os pedidos subsequentes contêm o texto, as imagens e o parâmetro cache_control idênticos ao primeiro pedido. Todos os pedidos também têm de incluir o parâmetro cache_control nos mesmos blocos.

Por predefinição, a cache tem um tempo de vida (TTL) de cinco minutos. Pode estender o TTL para uma hora definindo "ttl": "1h" no objeto cache_control. A duração da cache é atualizada sempre que o conteúdo em cache é acedido. Para mais informações, consulte o artigo Duração da cache de 1 hora.

O TTL de 1 hora não é suportado para os seguintes modelos: Claude 3.7 Sonnet, Claude 3.5 Sonnet v2, Claude 3.5 Sonnet e Claude 3 Opus.

Preços

O armazenamento em cache de comandos pode afetar os custos de faturação. Tenha em atenção que:

  • Os tokens de gravação da cache com uma duração de cinco minutos são 25% mais caros do que os tokens de entrada base.
  • Os tokens de gravação em cache com uma duração de uma hora são 100% mais caros do que os tokens de entrada base.
  • Os tokens de leitura da cache são 90% mais baratos do que os tokens de entrada base.
  • Os tokens de entrada e saída normais têm preços às tarifas padrão.

Para mais informações, consulte a página Preços.