Esta página foi traduzida pela API Cloud Translation.

Vista geral da colocação em cache de contexto

O armazenamento em cache de contexto ajuda a reduzir o custo e a latência dos pedidos ao Gemini que contêm conteúdo repetido. A Vertex AI oferece dois tipos de colocação em cache:

Colocação em cache implícita: colocação em cache automática ativada por predefinição que permite poupar custos quando ocorrem resultados da cache.
Colocação em cache explícita: colocação em cache manual ativada através da API Vertex AI, em que declara explicitamente o conteúdo que quer colocar em cache e se os seus comandos devem ou não referir-se ao conteúdo em cache.

Para o armazenamento em cache implícito e explícito, o campo cachedContentTokenCount nos metadados da resposta indica o número de tokens na parte armazenada em cache da entrada. Os pedidos de colocação em cache têm de conter, no mínimo, 2048 tokens.

Custos de armazenamento de cache

Para o armazenamento em cache implícito e explícito, a faturação é feita com base nos tokens de entrada usados para criar a cache ao preço padrão dos tokens de entrada. Para a colocação em cache explícita, também existem custos de armazenamento com base no tempo de armazenamento das caches. Não existem custos de armazenamento para a colocação em cache implícita. Para mais informações, consulte os preços da Vertex AI.

Colocação em cache implícita

Todos os Google Cloud projetos têm a colocação em cache implícita ativada por predefinição. O armazenamento em cache implícito oferece um desconto de 90% nos tokens em cache em comparação com os tokens de entrada padrão.

Quando ativadas, as poupanças de custos de acertos na cache implícitos são automaticamente transferidas para si. Para aumentar as hipóteses de um acerto de cache implícito:

Coloque conteúdos grandes e comuns no início do comando.
Enviar pedidos com um prefixo semelhante num curto período.

Modelos suportados

A colocação em cache implícita é suportada quando usa os seguintes modelos:

Gemini 3 Pro Modelo de pré-visualização
Gemini 2.5 Pro
Gemini 2.5 Flash Modelo de pré-visualização
Gemini 2.5 Flash-Lite Modelo de pré-visualização
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

O armazenamento em cache implícito também suporta os alias mais recentes, incluindo:

gemini-flash-latest
gemini-flash-lite-latest

Colocação em cache explícita

O armazenamento em cache explícito oferece mais controlo e garante um desconto quando são feitas referências a caches explícitas. Ou seja, um desconto nos tokens de entrada que referenciam uma cache de contexto existente. Nos modelos Gemini 2.5, este desconto é de 90%. Nos modelos Gemini 2.0, este desconto é de 75%.

Com a API Vertex AI, pode:

Criar caches de contexto e controlá-las de forma mais eficaz.
Use uma cache de contexto fazendo referência ao respetivo conteúdo num pedido de comando com o respetivo nome do recurso.
Atualize o tempo de expiração (tempo de vida ou TTL) de uma cache de contexto para além dos 60 minutos predefinidos.
Elimine uma cache de contexto quando já não for necessária.

Também pode usar a API Vertex AI para obter informações sobre uma cache de contexto.

As caches explícitas interagem com o armazenamento em cache implícito, o que pode levar a um armazenamento em cache adicional além dos conteúdos especificados quando cria uma cache. Para impedir a retenção de dados da cache, desative a colocação em cache implícita e evite criar caches explícitas. Para mais informações, consulte o artigo Ative e desative o armazenamento em cache.

Modelos suportados

O armazenamento em cache explícito é suportado quando usa os seguintes modelos:

Gemini 3 Pro Modelo de pré-visualização
Gemini 2.5 Pro
Gemini 2.5 Flash Modelo de pré-visualização
Gemini 2.5 Flash-Lite Modelo de pré-visualização
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

O armazenamento em cache explícito também suporta os alias mais recentes, incluindo:

gemini-flash-latest
gemini-flash-lite-latest

Quando usar o armazenamento em cache de contexto

A colocação em cache de contexto é particularmente adequada para cenários em que um contexto inicial substancial é referenciado repetidamente por pedidos subsequentes.

Os itens de contexto em cache, como uma grande quantidade de texto, um ficheiro de áudio ou um ficheiro de vídeo, podem ser usados em pedidos de comandos à API Gemini para gerar resultados. Os pedidos que usam a mesma cache no comando também incluem texto exclusivo para cada comando. Por exemplo, cada pedido de comando que compõe uma conversa de chat pode incluir a mesma cache de contexto que faz referência a um vídeo, juntamente com texto único que compreende cada turno no chat.

Considere usar o armazenamento em cache de contexto para exemplos de utilização como:

Bots de chat com instruções do sistema extensivas
Análise repetitiva de ficheiros de vídeo longos
Consultas recorrentes em grandes conjuntos de documentos
Análise frequente do repositório de código ou correção de erros

O armazenamento em cache implícito e explícito é suportado com o débito processado na pré-visualização. Consulte o guia de débito processado para mais detalhes.

Disponibilidade

O armazenamento em cache de contexto está disponível nas regiões onde a IA generativa no Vertex AI está disponível. Para mais informações, consulte as localizações da IA generativa no Vertex AI.

Limites

O conteúdo que coloca explicitamente em cache tem de cumprir os limites apresentados na tabela seguinte:

Limites de colocação em cache de contexto
Número mínimo de tokens de cache	`2,048` para todos os modelos
Tamanho máximo do conteúdo que pode colocar em cache através de um objeto binário grande ou texto	10 MB
Tempo mínimo antes de uma cache expirar após a sua criação	1 minuto
Tempo máximo antes de uma cache expirar após a sua criação	Não existe uma duração máxima da cache

Suporte dos VPC Service Controls

O armazenamento em cache de contexto suporta os VPC Service Controls, o que significa que a sua cache não pode ser exfiltrada para além do perímetro de serviço. Se usar o Cloud Storage para criar a cache, inclua também o contentor no perímetro do serviço para proteger o conteúdo da cache.

Para mais informações, consulte o artigo VPC Service Controls com a Vertex AI na documentação da Vertex AI.

O que se segue?

Saiba mais sobre a API Gemini.
Saiba como usar comandos multimodais.

Vista geral da colocação em cache de contexto Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Custos de armazenamento de cache

Colocação em cache implícita

Modelos suportados

Colocação em cache explícita

Modelos suportados

Quando usar o armazenamento em cache de contexto

Disponibilidade

Limites

Suporte dos VPC Service Controls

O que se segue?

Vista geral da colocação em cache de contexto