Obtenha inferência assíncrona, de elevado débito e rentável para as suas necessidades de processamento de dados em grande escala com a inferência em lote do Gemini (anteriormente conhecida como previsão em lote). Este guia explica o valor da inferência em lote, como funciona, as suas limitações e as práticas recomendadas para obter resultados ideais.
Por que motivo deve usar a inferência em lote?
Em muitos cenários do mundo real, não precisa de uma resposta imediata de um modelo de linguagem. Em alternativa, pode ter um grande conjunto de dados de comandos que precisa de processar de forma eficiente e acessível. É aqui que a inferência em lote se destaca.
As principais vantagens incluem:
- Rentabilidade: o processamento em lote é oferecido a uma taxa com 50% de desconto em comparação com a inferência em tempo real, o que o torna ideal para tarefas não urgentes em grande escala. A colocação em cache implícita está ativada por predefinição para o Gemini 2.5 Pro, o Gemini 2.5 Flash e o Gemini 2.5 Flash-Lite. O armazenamento em cache implícito oferece um desconto de 90% nos tokens em cache em comparação com os tokens de entrada padrão. No entanto, os descontos para cache e em lote não se acumulam. O desconto de 90% de acerto na cache tem precedência sobre o desconto em lote.
- Limites de velocidade elevados: processe centenas de milhares de pedidos num único lote com um limite de velocidade mais elevado em comparação com a API Gemini em tempo real.
- Fluxo de trabalho simplificado: em vez de gerir um pipeline complexo de pedidos individuais em tempo real, pode enviar uma única tarefa em lote e obter os resultados assim que o processamento estiver concluído. O serviço processa a validação de formatos, paraleliza os pedidos para processamento simultâneo e tenta novamente de forma automática para alcançar uma taxa de conclusão elevada com um tempo de processamento de 24 horas.
A inferência em lote está otimizada para tarefas de processamento em grande escala, como:
- Geração de conteúdo: gere descrições de produtos, publicações em redes sociais ou outro texto criativo em massa.
- Anotação e classificação de dados: classifique críticas de utilizadores, categorize documentos ou faça uma análise de sentimentos num grande conjunto de textos.
- Análise offline: resuma artigos, extraia informações importantes de relatórios ou traduza documentos em grande escala.
Modelos do Gemini que suportam a inferência em lote
Os seguintes modelos do Gemini base e otimizados suportam a inferência em lote:
- Gemini 3 Pro Modelo de pré-visualização
- Gemini 3 Pro Image Modelo de pré-visualização
- Gemini 2.5 Pro
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Compatibilidade com o modelo de ponto final global
A inferência em lote suporta a utilização do ponto final global para modelos Gemini base. Não suporta o ponto final global para modelos do Gemini otimizados.
A pré-visualização pública do suporte de inferência em lote para pontos finais globais não suporta tabelas do BigQuery como entrada ou saída.
O ponto final global ajuda a melhorar a disponibilidade geral ao processar os seus pedidos a partir de qualquer região suportada pelo modelo que está a usar. Tenha em atenção que não suporta os requisitos de residência dos dados. Se tiver requisitos de residência dos dados, use os pontos finais regionais.
Quotas e limites
Embora a inferência em lote seja poderosa, é importante ter em atenção as seguintes limitações.
- Quota: não existem limites de quota predefinidos na sua utilização. Em alternativa, o serviço de processamento em lote fornece acesso a um grande conjunto partilhado de recursos, atribuídos dinamicamente com base na disponibilidade de recursos e na procura em tempo real em todos os clientes desse modelo. Quando mais clientes estão ativos e saturam a nossa capacidade, os seus pedidos em lote podem ser colocados em fila para capacidade.
- Tempo de fila: quando o nosso serviço regista um tráfego elevado, o seu trabalho em lote é colocado em fila de espera por capacidade. A tarefa fica na fila durante um máximo de 72 horas antes de expirar.
- Limites de pedidos: um único trabalho em lote pode incluir até 200 000 pedidos. Se estiver a usar o Cloud Storage como entrada, também existe um limite de tamanho de ficheiro de 1 GB.
- Tempo de processamento: os trabalhos em lote são processados de forma assíncrona e não foram concebidos para aplicações em tempo real. A maioria das tarefas é concluída no prazo de 24 horas após o início da execução (sem contar o tempo de espera na fila). Após 24 horas, as tarefas incompletas são canceladas, e só lhe é cobrado o valor dos pedidos concluídos.
- Funcionalidades não suportadas: a inferência em lote não suporta armazenamento em cache explícito nem RAG. A colocação em cache implícita da inferência em lote não é suportada no Gemini 2.0 Flash nem no Gemini 2.0 Flash-Lite.
Práticas recomendadas
Para tirar o máximo partido da inferência em lote com o Gemini, recomendamos as seguintes práticas recomendadas:
- Combine tarefas: para maximizar o débito, combine tarefas mais pequenas numa tarefa grande, dentro dos limites do sistema. Por exemplo, o envio de uma tarefa em lote com 200 000 pedidos oferece um melhor débito do que 1000 tarefas com 200 pedidos cada.
- Monitorizar o estado da tarefa: pode monitorizar o progresso da tarefa através da API, do SDK ou da IU. Para mais informações, consulte o artigo Monitorize o estado da tarefa. Se uma tarefa falhar, verifique as mensagens de erro para diagnosticar e resolver o problema.
- Otimize os custos: tire partido da poupança de custos oferecida pelo processamento em lote para todas as tarefas que não exijam uma resposta imediata.
O que se segue?
- Crie um trabalho em lote com o Cloud Storage
- Crie uma tarefa em lote com o BigQuery
- Saiba como otimizar um modelo Gemini em Vista geral da otimização de modelos para o Gemini
- Saiba mais sobre a API Batch Prediction.