Armazenamento em cache do comando

Os modelos Claude da Anthropic oferecem cache de comandos para reduzir a latência e os custos ao reutilizar o mesmo conteúdo em várias solicitações. Ao enviar uma consulta, você pode armazenar em cache todas ou partes específicas da entrada para que as consultas subsequentes usem os resultados armazenados em cache da solicitação anterior. Isso evita custos adicionais de computação e rede. Os caches são exclusivos do seu projeto Google Cloud e não podem ser usados por outros projetos.

Para detalhes sobre como estruturar seus comandos, consulte a documentação de armazenamento em cache de comandos da Anthropic.

Processamento de dados

O cache de solicitações explícitas da Anthropic é um recurso dos modelos Claude da Anthropic. A oferta da Vertex AI desses modelos da Anthropic funciona conforme descrito na documentação da Anthropic.

O cache de comandos é um recurso opcional. O Claude calcula os hashes (impressões digitais) das solicitações para chaves de cache. Esses hashes só são calculados para solicitações com o cache ativado.

Embora o cache de comandos seja um recurso implementado pelos modelos do Claude, do ponto de vista do tratamento de dados, o Google considera esses hashes como um tipo de "metadados do usuário". Eles são tratados como "Dados de serviço" do cliente de acordo com o Aviso de privacidade (link em inglês) e não como "Dados do cliente" de acordo com o Aditivo sobre tratamento de dados do Cloud (clientes).Google Cloud Em especial, as proteções adicionais para "Dados do cliente" não se aplicam a esses hashes. O Google não usa esses hashes para nenhuma outra finalidade.

Se você quiser desativar completamente esse recurso de cache de comandos e torná-lo indisponível em projetos específicos do Google Cloud , entre em contato com o suporte ao cliente e informe os números dos projetos relevantes. Depois que o armazenamento em cache explícito é desativado em um projeto, as solicitações dele com o armazenamento em cache de comandos ativado são rejeitadas.

Usar o armazenamento em cache de comandos

É possível usar o SDK do Anthropic Claude ou a API REST da Vertex AI para enviar solicitações ao endpoint da Vertex AI.

Para mais informações, consulte Como o armazenamento em cache de comandos funciona.

Para mais exemplos, consulte os Exemplos de cache de comandos na documentação do Anthropic.

O cache ocorre automaticamente quando as solicitações subsequentes contêm o mesmo texto, imagens e parâmetro cache_control da primeira solicitação. Todas as solicitações também precisam incluir o parâmetro cache_control nos mesmos blocos.

Por padrão, o cache tem uma vida útil ou time to live (TTL) de cinco minutos. É possível estender o TTL para uma hora definindo "ttl": "1h" no objeto cache_control. O tempo de vida do cache é atualizado sempre que o conteúdo em cache é acessado. Para mais informações, consulte Duração do cache de uma hora.

O TTL de uma hora não é compatível com os seguintes modelos: Claude 3.7 Sonnet, Claude 3.5 Sonnet v2, Claude 3.5 Sonnet e Claude 3 Opus.

Preços

O armazenamento em cache de comandos pode afetar os custos de faturamento. Algumas considerações:

  • Os tokens de gravação em cache com uma vida útil de cinco minutos são 25% mais caros do que os tokens de entrada básicos.
  • Os tokens de gravação em cache com uma hora de vida útil são 100% mais caros do que os tokens de entrada básicos.
  • Os tokens de leitura do cache são 90% mais baratos do que os tokens de entrada básicos.
  • Os tokens de entrada e saída regulares são cobrados de acordo com as taxas padrão.

Para mais informações, consulte a página de preços.