Obtén inferencias asíncronas, rentables y de alto rendimiento para tus necesidades de procesamiento de datos a gran escala con la inferencia por lotes de Gemini (anteriormente conocida como predicción por lotes). En esta guía, se explica el valor de la inferencia por lotes, cómo funciona, sus limitaciones y las prácticas recomendadas para obtener resultados óptimos.
¿Por qué usar la inferencia por lotes?
En muchas situaciones reales, no necesitas una respuesta inmediata de un modelo de lenguaje. En cambio, es posible que tengas un gran conjunto de datos de instrucciones que debas procesar de manera eficiente y económica. Aquí es donde se destaca la inferencia por lotes.
Entre los beneficios clave, se incluyen los siguientes:
- Rentabilidad: El procesamiento por lotes se ofrece con un descuento del 50% en comparación con la inferencia en tiempo real, lo que lo hace ideal para tareas a gran escala y no urgentes. El almacenamiento en caché implícito está habilitado de forma predeterminada para Gemini 2.5 Pro, Gemini 2.5 Flash y Gemini 2.5 Flash-Lite. El almacenamiento en caché implícito proporciona un descuento del 90% en los tokens almacenados en caché en comparación con los tokens de entrada estándar. Sin embargo, los descuentos por caché y por lotes no se acumulan. El descuento por acierto de caché del 90% tiene prioridad sobre el descuento por lotes.
- Límites de frecuencia altos: Procesa cientos de miles de solicitudes en un solo lote con un límite de frecuencia más alto en comparación con la API de Gemini en tiempo real.
- Flujo de trabajo simplificado: En lugar de administrar una canalización compleja de solicitudes individuales en tiempo real, puedes enviar un solo trabajo por lotes y recuperar los resultados una vez que se complete el procesamiento. El servicio controlará la validación del formato, paralelizará las solicitudes para el procesamiento simultáneo y volverá a intentarlo automáticamente para lograr un alto porcentaje de finalización con un tiempo de respuesta de 24 horas.
La inferencia por lotes está optimizada para tareas de procesamiento a gran escala, como las siguientes:
- Generación de contenido: Genera descripciones de productos, publicaciones en redes sociales o cualquier otro texto creativo de forma masiva.
- Anotación y clasificación de datos: Clasifica opiniones de usuarios, categoriza documentos o realiza análisis de sentimiento en un gran corpus de texto.
- Análisis sin conexión: Resume artículos, extrae información clave de informes o traduce documentos a gran escala.
Modelos de Gemini que admiten la inferencia por lotes
Los siguientes modelos de Gemini base y ajustados admiten la inferencia por lotes:
- Gemini 3 Pro Modelo de vista previa
- Imagen de Gemini 3 Pro Modelo de vista previa
- Gemini 2.5 Pro
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Compatibilidad con el modelo de extremo global
La inferencia por lotes admite el uso del extremo global para los modelos básicos de Gemini. No admite el extremo global para los modelos de Gemini ajustados.
La versión preliminar pública de la compatibilidad con la inferencia por lotes para los extremos globales no admite tablas de BigQuery como entrada o salida.
El extremo global ayuda a mejorar la disponibilidad general, ya que entrega tus solicitudes desde cualquier región compatible con el modelo que estás usando. Ten en cuenta que no admite los requisitos de residencia de datos. Si tienes requisitos de residencia de datos, usa los extremos regionales.
Cuotas y límites
Si bien la inferencia por lotes es potente, es importante tener en cuenta las siguientes limitaciones.
- Quota: No hay límites de cuota predefinidos para tu uso. En cambio, el servicio por lotes proporciona acceso a un grupo grande y compartido de recursos que se asignan de forma dinámica según la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Cuando más clientes están activos y saturan nuestra capacidad, es posible que tus solicitudes por lotes se pongan en cola para esperar capacidad.
- Tiempo en cola: Cuando nuestro servicio experimenta un tráfico alto, tu trabajo por lotes se pondrá en cola para esperar capacidad. El trabajo estará en la cola hasta por 72 horas antes de que caduque.
- Límites de solicitudes: Un solo trabajo por lotes puede incluir hasta 200,000 solicitudes. Si usas Cloud Storage como entrada, también hay un límite de tamaño de archivo de 1 GB.
- Tiempo de procesamiento: Los trabajos por lotes se procesan de forma asíncrona y no están diseñados para aplicaciones en tiempo real. La mayoría de los trabajos se completan en un plazo de 24 horas después de que comienzan a ejecutarse (sin contar el tiempo en la cola). Después de 24 horas, se cancelarán los trabajos incompletos y solo se te cobrarán las solicitudes completadas.
- Funciones no compatibles: La inferencia por lotes no admite el almacenamiento en caché explícito ni la RAG. El almacenamiento en caché implícito de la inferencia por lotes no es compatible con Gemini 2.0 Flash ni Gemini 2.0 Flash-Lite.
Prácticas recomendadas
Para aprovechar al máximo la inferencia por lotes con Gemini, te recomendamos que sigas estas prácticas recomendadas:
- Combina trabajos: Para maximizar el rendimiento, combina trabajos más pequeños en uno grande, dentro de los límites del sistema. Por ejemplo, enviar un trabajo por lotes con 200,000 solicitudes te dará un mejor rendimiento que enviar 1,000 trabajos con 200 solicitudes cada uno.
- Supervisa el estado del trabajo: Puedes supervisar el progreso del trabajo con la API, el SDK o la IU. Para obtener más información, consulta cómo supervisar el estado del trabajo. Si un trabajo falla, revisa los mensajes de error para diagnosticar y solucionar el problema.
- Optimiza los costos: Aprovecha los ahorros que ofrece el procesamiento por lotes para las tareas que no requieren una respuesta inmediata.
¿Qué sigue?
- Crea un trabajo por lotes con Cloud Storage
- Crea un trabajo por lotes con BigQuery
- Aprende a ajustar un modelo de Gemini en Descripción general del ajuste de modelos para Gemini
- Obtén más información sobre la API de predicción por lotes.