Vista geral da colocação em cache de contexto

O armazenamento em cache de contexto ajuda a reduzir o custo e a latência dos pedidos ao Gemini que contêm conteúdo repetido. A Vertex AI oferece dois tipos de colocação em cache:

  • Colocação em cache implícita: colocação em cache automática ativada por predefinição que permite poupar custos quando ocorrem resultados da cache.
  • Colocação em cache explícita: colocação em cache manual ativada através da API Vertex AI, em que declara explicitamente o conteúdo que quer colocar em cache e se os seus comandos devem ou não referir-se ao conteúdo em cache.

Para o armazenamento em cache implícito e explícito, o campo cachedContentTokenCount nos metadados da resposta indica o número de tokens na parte armazenada em cache da entrada. Os pedidos de colocação em cache têm de conter, no mínimo, 2048 tokens.

Custos de armazenamento de cache

Para o armazenamento em cache implícito e explícito, a faturação é feita com base nos tokens de entrada usados para criar a cache ao preço padrão dos tokens de entrada. Para a colocação em cache explícita, também existem custos de armazenamento com base no tempo de armazenamento das caches. Não existem custos de armazenamento para a colocação em cache implícita. Para mais informações, consulte os preços da Vertex AI.

Colocação em cache implícita

Todos os Google Cloud projetos têm a colocação em cache implícita ativada por predefinição. O armazenamento em cache implícito oferece um desconto de 90% nos tokens em cache em comparação com os tokens de entrada padrão.

Quando ativadas, as poupanças de custos de acertos na cache implícitos são automaticamente transferidas para si. Para aumentar as hipóteses de um acerto de cache implícito:

  • Coloque conteúdos grandes e comuns no início do comando.
  • Enviar pedidos com um prefixo semelhante num curto período.

Modelos suportados

A colocação em cache implícita é suportada quando usa os seguintes modelos:

O armazenamento em cache implícito também suporta os alias mais recentes, incluindo:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Colocação em cache explícita

O armazenamento em cache explícito oferece mais controlo e garante um desconto quando são feitas referências a caches explícitas. Ou seja, um desconto nos tokens de entrada que referenciam uma cache de contexto existente. Nos modelos Gemini 2.5, este desconto é de 90%. Nos modelos Gemini 2.0, este desconto é de 75%.

Com a API Vertex AI, pode:

Também pode usar a API Vertex AI para obter informações sobre uma cache de contexto.

As caches explícitas interagem com o armazenamento em cache implícito, o que pode levar a um armazenamento em cache adicional além dos conteúdos especificados quando cria uma cache. Para impedir a retenção de dados da cache, desative a colocação em cache implícita e evite criar caches explícitas. Para mais informações, consulte o artigo Ative e desative o armazenamento em cache.

Modelos suportados

O armazenamento em cache explícito é suportado quando usa os seguintes modelos:

O armazenamento em cache explícito também suporta os alias mais recentes, incluindo:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Quando usar o armazenamento em cache de contexto

A colocação em cache de contexto é particularmente adequada para cenários em que um contexto inicial substancial é referenciado repetidamente por pedidos subsequentes.

Os itens de contexto em cache, como uma grande quantidade de texto, um ficheiro de áudio ou um ficheiro de vídeo, podem ser usados em pedidos de comandos à API Gemini para gerar resultados. Os pedidos que usam a mesma cache no comando também incluem texto exclusivo para cada comando. Por exemplo, cada pedido de comando que compõe uma conversa de chat pode incluir a mesma cache de contexto que faz referência a um vídeo, juntamente com texto único que compreende cada turno no chat.

Considere usar o armazenamento em cache de contexto para exemplos de utilização como:

  • Bots de chat com instruções do sistema extensivas
  • Análise repetitiva de ficheiros de vídeo longos
  • Consultas recorrentes em grandes conjuntos de documentos
  • Análise frequente do repositório de código ou correção de erros

O armazenamento em cache implícito e explícito é suportado com o débito processado na pré-visualização. Consulte o guia de débito processado para mais detalhes.

Disponibilidade

O armazenamento em cache de contexto está disponível nas regiões onde a IA generativa no Vertex AI está disponível. Para mais informações, consulte as localizações da IA generativa no Vertex AI.

Limites

O conteúdo que coloca explicitamente em cache tem de cumprir os limites apresentados na tabela seguinte:

Limites de colocação em cache de contexto

Número mínimo de tokens de cache

2,048 para todos os modelos

Tamanho máximo do conteúdo que pode colocar em cache através de um objeto binário grande ou texto

10 MB

Tempo mínimo antes de uma cache expirar após a sua criação

1 minuto

Tempo máximo antes de uma cache expirar após a sua criação

Não existe uma duração máxima da cache

Suporte dos VPC Service Controls

O armazenamento em cache de contexto suporta os VPC Service Controls, o que significa que a sua cache não pode ser exfiltrada para além do perímetro de serviço. Se usar o Cloud Storage para criar a cache, inclua também o contentor no perímetro do serviço para proteger o conteúdo da cache.

Para mais informações, consulte o artigo VPC Service Controls com a Vertex AI na documentação da Vertex AI.

O que se segue?