Inferência em lote com o Gemini

Receba inferência assíncrona, de alta capacidade e econômica para suas necessidades de processamento de dados em grande escala com a inferência em lote do Gemini (antes conhecida como previsão em lote). Este guia explica o valor da inferência em lote, como ela funciona, as limitações e as práticas recomendadas para resultados ideais.

Por que usar a inferência em lote?

Em muitos cenários do mundo real, não é necessário ter uma resposta imediata de um modelo de linguagem. Em vez disso, você pode ter um grande conjunto de dados de comandos que precisa processar de maneira eficiente e econômica. É aí que a inferência em lote se destaca.

Entre os principais benefícios estão:

  • Custo-benefício:o processamento em lote é oferecido com um desconto de 50% em comparação com a inferência em tempo real, o que o torna ideal para tarefas em grande escala e não urgentes. O armazenamento em cache implícito está ativado por padrão para o Gemini 2.5 Pro, o Gemini 2.5 Flash e o Gemini 2.5 Flash-Lite. O armazenamento em cache implícito oferece um desconto de 90% nos tokens armazenados em cache em comparação com os tokens de entrada padrão. No entanto, os descontos para cache e lote não são cumulativos. O desconto de 90% de ocorrência em cache tem prioridade sobre o desconto por lote.
  • Limites de taxa altos:processe centenas de milhares de solicitações em um único lote com um limite de taxa maior em comparação com a API Gemini em tempo real.
  • Fluxo de trabalho simplificado:em vez de gerenciar um pipeline complexo de solicitações individuais em tempo real, você pode enviar um único job em lote e recuperar os resultados assim que o processamento for concluído. O serviço vai processar a validação de formato, paralelizar solicitações para processamento simultâneo e tentar novamente de forma automática para alcançar uma alta taxa de conclusão com um tempo de resposta de 24 horas.

A inferência em lote é otimizada para tarefas de processamento em grande escala, como:

  • Geração de conteúdo:gere descrições de produtos, postagens em redes sociais ou outros textos criativos em massa.
  • Anotação e classificação de dados:classifique avaliações de usuários, categorize documentos ou faça uma análise de sentimentos em um grande corpus de texto.
  • Análise off-line:resuma artigos, extraia informações importantes de relatórios ou traduza documentos em grande escala.

Modelos do Gemini compatíveis com inferência em lote

Os seguintes modelos básicos e ajustados do Gemini são compatíveis com a inferência em lote:

Suporte ao modelo de endpoint global

A inferência em lote é compatível com o uso do endpoint global para modelos básicos do Gemini. Ele não é compatível com o endpoint global para modelos do Gemini ajustados.

A prévia pública do suporte à inferência em lote para endpoints globais não é compatível com tabelas do BigQuery como entrada ou saída.

O endpoint global ajuda a melhorar a disponibilidade geral atendendo às suas solicitações de qualquer região compatível com o modelo que você está usando. Ele não atende aos requisitos de residência de dados. Se você tiver requisitos de residência de dados, use os endpoints regionais.

Cotas e limites

Embora a inferência em lote seja poderosa, é importante estar ciente das seguintes limitações.

  • Quota: não há limites de cota predefinidos para seu uso. Em vez disso, o serviço em lote oferece acesso a um grande pool compartilhado de recursos, alocados dinamicamente com base na disponibilidade de recursos e na demanda em tempo real de todos os clientes desse modelo. Quando mais clientes estão ativos e saturam nossa capacidade, suas solicitações em lote podem ser colocadas em fila.
  • Tempo na fila: quando nosso serviço tem muito tráfego, seu job em lote fica na fila por capacidade. O job vai ficar na fila por até 72 horas antes de expirar.
  • Limites de solicitações: um único job em lote pode incluir até 200.000 solicitações. Se você estiver usando o Cloud Storage como entrada, também haverá um limite de tamanho de arquivo de 1 GB.
  • Tempo de processamento: os jobs em lote são processados de forma assíncrona e não são projetados para aplicativos em tempo real. A maioria dos jobs é concluída em até 24 horas após o início da execução (sem contar o tempo na fila). Após 24 horas, os trabalhos incompletos serão cancelados, e você só vai receber cobranças pelas solicitações concluídas.
  • Recursos não compatíveis: a inferência em lote não é compatível com armazenamento em cache explícito ou RAG. O armazenamento em cache implícito de inferência em lote não é compatível com o Gemini 2.0 Flash ou o Gemini 2.0 Flash-Lite.

Práticas recomendadas

Para aproveitar ao máximo a inferência em lote com o Gemini, recomendamos as seguintes práticas recomendadas:

  • Combinar jobs:para maximizar a capacidade de processamento, combine jobs menores em um job grande, dentro dos limites do sistema. Por exemplo, enviar um job em lote com 200.000 solicitações vai gerar uma capacidade de processamento melhor do que 1.000 jobs com 200 solicitações cada.
  • Monitorar o status do job:é possível monitorar o progresso do job usando a API, o SDK ou UI. Para mais informações, consulte monitorar o status do job. Se um job falhar, verifique as mensagens de erro para diagnosticar e resolver o problema.
  • Otimize para custo:aproveite a economia de custos oferecida pelo processamento em lote para tarefas que não exigem uma resposta imediata.

A seguir