Vista geral da colocação em cache de contexto

A colocação em cache de contexto ajuda a reduzir o custo e a latência dos pedidos ao Gemini que contêm conteúdo repetido. A Vertex AI oferece dois tipos de colocação em cache:

  • Colocação em cache implícita: colocação em cache automática ativada por predefinição que oferece poupanças de custos quando ocorrem resultados da cache.
  • Colocação em cache explícita: colocação em cache manual ativada através da API Vertex AI, em que declara explicitamente o conteúdo que quer colocar em cache e se os seus comandos devem ou não referir-se ao conteúdo em cache.

Para o armazenamento em cache implícito e explícito, o campo cachedContentTokenCount nos metadados da resposta indica o número de tokens na parte armazenada em cache da entrada. Os pedidos de colocação em cache têm de conter, no mínimo, 2048 tokens.

Custos de armazenamento de cache

Para o armazenamento em cache implícito e explícito, não existe qualquer custo adicional para escrever no cache, além dos custos padrão dos tokens de entrada. Para o armazenamento em cache explícito, existem custos de armazenamento com base no tempo de armazenamento das caches. Não existem custos de armazenamento para o armazenamento em cache implícito. Para mais informações, consulte os preços da Vertex AI.

Colocação em cache implícita

Todos os Google Cloud projetos têm a colocação em cache implícita ativada por predefinição. O armazenamento em cache implícito oferece um desconto de 90% nos tokens em cache em comparação com os tokens de entrada padrão.

Quando ativadas, as poupanças de custos de acertos na cache implícitos são automaticamente transferidas para si. Para aumentar as hipóteses de um acerto de cache implícito:

  • Coloque conteúdos grandes e comuns no início do comando.
  • Enviar pedidos com um prefixo semelhante num curto período.

Modelos suportados

A colocação em cache implícita é suportada quando usa os seguintes modelos:

O armazenamento em cache implícito também suporta os alias mais recentes, incluindo:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Colocação em cache explícita

A colocação em cache explícita oferece mais controlo e garante um desconto quando são referenciadas caches explícitas. Nos modelos Gemini 2.5, este desconto é de 90%. Nos modelos Gemini 2.0, este desconto é de 75%.

Com a API Vertex AI, pode:

Também pode usar a API Vertex AI para obter informações sobre uma cache de contexto.

As caches explícitas interagem com o armazenamento em cache implícito, o que pode levar a um armazenamento em cache adicional além dos conteúdos especificados quando cria uma cache. Para evitar a retenção de dados da cache, desative a colocação em cache implícita e evite criar caches explícitas. Para mais informações, consulte o artigo Ative e desative o armazenamento em cache.

Modelos suportados

O armazenamento em cache explícito é suportado quando usa os seguintes modelos:

O armazenamento em cache explícito também suporta os alias mais recentes, incluindo:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Quando usar o armazenamento em cache de contexto

A colocação em cache de contexto é particularmente adequada para cenários em que um contexto inicial substancial é referenciado repetidamente por pedidos subsequentes.

Os itens de contexto em cache, como uma grande quantidade de texto, um ficheiro de áudio ou um ficheiro de vídeo, podem ser usados em pedidos de comandos à API Gemini para gerar resultados. Os pedidos que usam a mesma cache no comando também incluem texto exclusivo para cada comando. Por exemplo, cada pedido de comando que compõe uma conversa de chat pode incluir a mesma cache de contexto que faz referência a um vídeo, juntamente com texto único que compõe cada turno no chat.

Considere usar a colocação em cache de contexto para exemplos de utilização como:

  • Bots de chat com instruções do sistema extensivas
  • Análise repetitiva de ficheiros de vídeo longos
  • Consultas recorrentes em grandes conjuntos de documentos
  • Análise frequente do repositório de código ou correção de erros

O suporte de colocação em cache de contexto para o débito processado está em pré-visualização para a colocação em cache implícita. A colocação em cache explícita não é suportada para o débito processado. Consulte o guia de débito processado para ver mais detalhes.

Disponibilidade

O armazenamento em cache de contexto está disponível nas regiões onde a IA generativa no Vertex AI está disponível. Para mais informações, consulte as localizações da IA generativa no Vertex AI.

Limites

O conteúdo que coloca explicitamente em cache tem de cumprir os limites apresentados na tabela seguinte:

Limites de colocação em cache de contexto

Número mínimo de tokens de cache

2,048 para todos os modelos

Tamanho máximo do conteúdo que pode colocar em cache através de um objeto binário grande ou texto

10 MB

Tempo mínimo antes de uma cache expirar após a sua criação

1 minuto

Tempo máximo antes de uma cache expirar após a sua criação

Não existe uma duração máxima da cache

Suporte dos VPC Service Controls

O armazenamento em cache de contexto suporta os VPC Service Controls, o que significa que a sua cache não pode ser exfiltrada para além do seu perímetro de serviço. Se usar o Cloud Storage para criar a cache, inclua também o contentor no perímetro do serviço para proteger o conteúdo da cache.

Para mais informações, consulte o artigo VPC Service Controls com a Vertex AI na documentação da Vertex AI.

O que se segue?