Esta página se ha traducido con Cloud Translation API.

Inferencia por lotes con Gemini

Obtén inferencias asíncronas, de alto rendimiento y rentables para tus necesidades de procesamiento de datos a gran escala con la inferencia por lotes de Gemini (antes conocida como predicción por lotes). En esta guía se explica el valor de la inferencia por lotes, cómo funciona, sus limitaciones y las prácticas recomendadas para obtener resultados óptimos.

¿Por qué usar la inferencia por lotes?

En muchas situaciones reales, no necesitas una respuesta inmediata de un modelo de lenguaje. En su lugar, puede que tengas un gran conjunto de datos de peticiones que necesites procesar de forma eficiente y asequible. Aquí es donde destaca la inferencia por lotes.

Algunas de sus principales ventajas son:

Rentabilidad: el procesamiento por lotes se ofrece con un descuento del 50% en comparación con la inferencia en tiempo real, lo que lo convierte en la opción ideal para tareas a gran escala que no son urgentes. El almacenamiento en caché implícito está habilitado de forma predeterminada en Gemini 2.5 Pro, Gemini 2.5 Flash y Gemini 2.5 Flash-Lite. El almacenamiento en caché implícito ofrece un descuento del 90% en los tokens almacenados en caché en comparación con los tokens de entrada estándar. Sin embargo, los descuentos por caché y por lote no se acumulan. El descuento del 90% por acierto de caché tiene prioridad sobre el descuento por lote.
Límites de frecuencia altos: procesa cientos de miles de solicitudes en un solo lote con un límite de frecuencia más alto que el de la API de Gemini en tiempo real.
Flujo de trabajo simplificado: en lugar de gestionar una compleja canalización de solicitudes individuales en tiempo real, puedes enviar un único trabajo por lotes y obtener los resultados una vez que se haya completado el procesamiento. El servicio se encargará de validar el formato, paralelizar las solicitudes para que se procesen simultáneamente y volver a intentarlo automáticamente para conseguir una tasa de finalización alta en un plazo de 24 horas.

La inferencia por lotes está optimizada para tareas de procesamiento a gran escala, como las siguientes:

Generación de contenido: genera descripciones de productos, publicaciones en redes sociales u otro texto creativo en bloque.
Anotación y clasificación de datos: clasifica reseñas de usuarios, categoriza documentos o analiza el sentimiento de un gran corpus de texto.
Análisis sin conexión: resume artículos, extrae información clave de informes o traduce documentos a gran escala.

Modelos de Gemini que admiten la inferencia por lotes

Los siguientes modelos de Gemini básicos y ajustados admiten la inferencia por lotes:

Gemini 3 Pro Modelo de vista previa
Imagen de Gemini 3 Pro Modelo de vista previa
Gemini 2.5 Pro
Gemini 2.5 Flash Image
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Compatibilidad con modelos de endpoint global

La inferencia por lotes admite el uso del endpoint global para los modelos básicos de Gemini. No admite el endpoint global de los modelos de Gemini ajustados.

La vista previa pública de la compatibilidad con la inferencia por lotes para los endpoints globales no admite tablas de BigQuery como entrada o salida.

El endpoint global ayuda a mejorar la disponibilidad general al servir tus solicitudes desde cualquier región compatible con el modelo que estés usando. Ten en cuenta que no cumple los requisitos de residencia de datos. Si tienes requisitos de residencia de datos, usa los endpoints regionales.

Cuotas y límites

Aunque la inferencia por lotes es una función muy útil, es importante tener en cuenta las siguientes limitaciones.

Quota no hay límites de cuota predefinidos para tu uso. En su lugar, batch service proporciona acceso a un gran grupo compartido de recursos, asignados dinámicamente en función de la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Si hay más clientes activos y nuestra capacidad está saturada, es posible que tus solicitudes por lotes se pongan en cola por falta de capacidad.
Tiempo de cola: cuando nuestro servicio experimenta un tráfico elevado, tu trabajo por lotes se pondrá en cola para obtener capacidad. El trabajo estará en la cola durante un máximo de 72 horas antes de que caduque.
Límites de solicitudes: un solo trabajo por lotes puede incluir hasta 200.000 solicitudes. Si usas Cloud Storage como entrada, también hay un límite de tamaño de archivo de 1 GB.
Tiempo de procesamiento: los trabajos por lotes se procesan de forma asíncrona y no están diseñados para aplicaciones en tiempo real. La mayoría de las tareas se completan en un plazo de 24 horas después de que empiecen a ejecutarse (sin contar el tiempo de espera en la cola). Transcurridas 24 horas, los trabajos incompletos se cancelarán y solo se te cobrarán las solicitudes completadas.
Funciones no admitidas: la inferencia por lotes no admite el almacenamiento en caché explícito ni la RAG. La caché implícita de la inferencia por lotes no se admite en Gemini 2.0 Flash ni en Gemini 2.0 Flash-Lite.

Prácticas recomendadas

Para sacar el máximo partido a la inferencia por lotes con Gemini, te recomendamos que sigas estas prácticas recomendadas:

Combinar trabajos: para maximizar el rendimiento, combina trabajos más pequeños en un trabajo de mayor tamaño, dentro de los límites del sistema. Por ejemplo, si envías un trabajo por lotes con 200.000 solicitudes,obtendrás un mejor rendimiento que si envías 1000 trabajos con 200 solicitudes cada uno.
Monitorizar el estado de la tarea: puedes monitorizar el progreso de la tarea mediante la API, el SDK o la interfaz de usuario. Para obtener más información, consulta Monitorizar el estado de los trabajos. Si un trabajo falla, comprueba los mensajes de error para diagnosticar y solucionar el problema.
Optimizar los costes: aprovecha los ahorros que ofrece el procesamiento por lotes para las tareas que no requieran una respuesta inmediata.

Siguientes pasos

Crear un trabajo por lotes con Cloud Storage
Crear un trabajo por lotes con BigQuery
Consulta cómo ajustar un modelo de Gemini en el artículo Descripción general del ajuste de modelos de Gemini.
Más información sobre la API de predicción por lotes