Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Opciones de consumo

Gemini Enterprise Agent Platform ofrece varias opciones para obtener y usar recursos de procesamiento cuando se usan modelos generativos. Estas opciones de consumo están diseñadas para satisfacer las necesidades de cualquier carga de trabajo, desde la creación inicial de prototipos hasta las implementaciones de producción. Seleccionar la opción correcta es fundamental para equilibrar el rendimiento, la confiabilidad y el costo.

En esta guía, se detallan las opciones de consumo disponibles, se te ayuda a correlacionarlas con los requisitos específicos de tu carga de trabajo y se proporcionan estrategias para optimizar la latencia, la disponibilidad y el costo.

Opciones de consumo

Gemini Enterprise Agent Platform ofrece cinco opciones de consumo adaptadas a diferentes patrones de tráfico y necesidades comerciales:

Opción de consumo		Descripción	Es ideal para	Precios
Capacidad de procesamiento aprovisionada		Proporciona capacidad de procesamiento garantizada durante un período de compromiso	Cargas de trabajo críticas, de estado estable y siempre activas en las que se necesita un ANS	Basado en compromisos (disponible en planes de 1 semana, 1 mes, 3 meses y 1 año)
PayGo	Standard	Opción flexible de pago por uso sin compromiso por adelantado	Opción predeterminada para casos de uso cotidianos con flexibilidad para la demanda de tráfico variable	Por token (tarifa estándar)
	Prioridad	Ofrece mayor confiabilidad a través del procesamiento prioritario y, al mismo tiempo, mantiene la flexibilidad de PayGo	Cargas de trabajo importantes que requieren mayor confiabilidad y límites que el modelo estándar de pago por uso	Por token (tarifa premium)
	Flex	Opción rentable para cargas de trabajo tolerantes a la latencia	Tareas que pueden tolerar tiempos de respuesta más lentos y una mayor limitación a cambio de precios más bajos	Por token (tarifa con descuento)
Inferencia por lotes		Optimizado para el procesamiento asíncrono de gran volumen	Trabajos a gran escala en los que se necesitan resultados en un plazo más largo	Por token (tarifa con descuento)

Para obtener información sobre los precios, consulta la página de precios.

Elige la opción adecuada para tu carga de trabajo

En las siguientes secciones, se brinda orientación para seleccionar la opción de consumo más adecuada según los requisitos y las características específicos de tu carga de trabajo.

Cargas de trabajo sensibles a la latencia

Las organizaciones a menudo deben hacer concesiones entre la confiabilidad y el costo cuando eligen los modelos de consumo adecuados. Si bien la capacidad de procesamiento aprovisionada ofrece la mayor confiabilidad, puede causar una subutilización si tu tráfico tiene picos. Del mismo modo, PayGo puede ofrecer la máxima flexibilidad, pero no puede garantizar una calidad de servicio. En la siguiente sección, se describe la mejor manera de combinar estos mecanismos para lograr el resultado óptimo:

Cubre el tráfico de referencia con la capacidad de procesamiento aprovisionada. Esto mejora la utilización de tu capacidad reservada, lo que la hace económica y, a la vez, proporciona confiabilidad garantizada para el núcleo de tu tráfico. Para lograrlo, haz lo siguiente:
- Analiza tus patrones de tráfico a nivel de minutos o segundos.
- Determina la cantidad de tráfico que debe cubrir la capacidad de procesamiento aprovisionada. Debe cubrir tu tráfico de mayor prioridad.
Administra el tráfico excedente con PayGo estándar o prioritario: De forma predeterminada, el tráfico que supera tu valor de referencia de capacidad de procesamiento aprovisionada (llamado tráfico excedente) se controla con PayGo estándar. Si observas una mayor variación en el rendimiento de las solicitudes que superan el límite de TPM, puedes mitigar esa variación con la optimización. PayGo prioritario te brinda la opción de lograr un rendimiento confiable a un precio premium, sujeto al límite de aumento.

Cargas de trabajo asíncronas de gran volumen

Si tienes una gran cantidad de solicitudes pendientes (por ejemplo, si tienes millones de documentos para resumir) y la latencia inmediata no es un problema, debes enviar un trabajo por lotes formulando las solicitudes en un archivo JSON o una hoja de cálculo. Esto es útil para casos de uso como el etiquetado de imágenes, el procesamiento masivo de documentos o el análisis de sentimiento sobre datos históricos.

Esta es la opción más rentable para la inferencia de gran volumen.

Cargas de trabajo tolerantes a la latencia y sensibles a los costos

Si necesitas procesar solicitudes en las que la aplicación puede esperar una respuesta, pero la reducción de costos es una prioridad, debes usar Flex PayGo. Flex PayGo ofrece precios por token reducidos para las solicitudes que no requieren ejecución inmediata. Esta opción es útil para casos de uso como el análisis sin conexión, la anotación de datos, la compilación de catálogos de productos o la traducción.

Estrategias de optimización

Una vez que hayas seleccionado tu modelo de consumo, usa las siguientes estrategias para optimizar aún más la latencia, la disponibilidad y el costo.

Latencia

Cuando compilas aplicaciones interactivas, la latencia cumple un rol fundamental en la experiencia del usuario. La latencia se refiere al tiempo que tarda un modelo en procesar tu instrucción de entrada y generar una respuesta de salida correspondiente. Cuando examines la latencia con un modelo, ten en cuenta lo siguiente:

Tiempo hasta el primer token (TTFT): Es el tiempo que tarda el modelo en producir el primer token de la respuesta después de recibir la instrucción. El TTFT es particularmente relevante para las aplicaciones de transmisión, en las que proporcionar comentarios inmediatos es fundamental.
Tiempo hasta el último token (TTLT): Es el tiempo total que tarda el modelo en procesar la instrucción y generar la respuesta.

Para optimizar la latencia, haz lo siguiente:

Selecciona el modelo adecuado para tu caso de uso: Gemini Enterprise Agent Platform proporciona una amplia variedad de modelos con diferentes capacidades y características de rendimiento. Evalúa con cuidado los requisitos de velocidad y calidad del resultado para elegir el modelo que mejor se alinee con tu caso de uso. Para obtener una lista de los modelos disponibles, consulta Model Garden.
Reduce el tamaño de las instrucciones: Crea instrucciones claras y concisas que transmitan de manera eficaz tu intención sin detalles innecesarios ni redundancia. Las instrucciones más cortas reducen el tiempo hasta el primer token.
Limitar tokens de salida:
- Usa las instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o limite el resultado a una cantidad específica de oraciones o párrafos. Esta estrategia puede reducir tu tiempo hasta el último token.
- Para restringir el resultado, establece un límite. Usa el parámetro max_output_tokens para establecer un límite máximo en la longitud de la respuesta generada, lo que evita un resultado demasiado largo. La latencia es directamente proporcional a la cantidad de tokens generados. Generar menos tokens produce respuestas más rápidas. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas en la mitad de la oración.
Usa la capacidad de procesamiento aprovisionada: Para obtener el rendimiento más coherente, usa la capacidad de procesamiento aprovisionada. Esto elimina la variabilidad causada por los "inicios en frío" o las filas que pueden ocurrir ocasionalmente en los modelos de pago por uso durante el tráfico alto.
Limita el presupuesto de pensamiento: Si usas un modelo que admite Thinking, puedes reducir la latencia disminuyendo el presupuesto de pensamiento. Si limitas los tokens de razonamiento interno que genera el modelo antes de responder, reduces el tiempo de procesamiento general. Sin embargo, debes asegurarte de que el presupuesto siga siendo suficiente para la complejidad de la tarea y evitar que se degrade la calidad de la respuesta.
Usa la transmisión para tus respuestas: La transmisión mejora la capacidad de respuesta percibida y crea una experiencia del usuario más interactiva. Con la transmisión, el modelo comienza a enviar su respuesta antes de generar el resultado completo. Esto permite el procesamiento del resultado en tiempo real, por lo que puedes actualizar de inmediato la interfaz de usuario y realizar otras tareas simultáneas.

Disponibilidad

Para optimizar la disponibilidad, sigue estos pasos:

Implementa la lógica de reintentos: Implementa la retirada exponencial para los errores 429, en especial cuando uses el modelo de pago por uso estándar.
Usa una implementación híbrida: Como se detalla en Elige la opción adecuada para tu carga de trabajo, no confíes solo en el modelo de pago por uso para las apps de producción críticas. La combinación de la capacidad de procesamiento aprovisionada y el pago por uso proporciona la mayor garantía contra el agotamiento de recursos (errores 429).
Administra tu cuota de capacidad de procesamiento aprovisionada: Supervisa periódicamente tu consumo de TPM y aumenta las GSU de PT antes de los eventos de tráfico previstos (como los lanzamientos de productos). Puedes usar una política de alertas para automatizar la supervisión.
Usa el extremo global: Usa el extremo global para aprovechar el grupo de capacidad global de Google y minimizar la limitación debido a las restricciones de capacidad regionales.
Suaviza tu tráfico para reducir los picos siempre que sea posible: Las tasas de tráfico de PayGo más altas (TPM) tienden a asociarse con tasas de aceleración más altas.
Traslada el tráfico a las horas no pico: En general, el uso del modelo agregado sigue un patrón diurno. Trasladar tu carga de trabajo a las horas no pico o los fines de semana puede mejorar significativamente la disponibilidad.

Costo

Para optimizar los costos, haz lo siguiente:

Ajusta el tamaño de tu capacidad de procesamiento aprovisionada: Por lo general, no es necesario que aprovisiones la PT para cubrir la demanda máxima. El aprovisionamiento para la demanda máxima reduce la utilización general y aumenta los costos. Intenta cubrir un percentil específico de tu tráfico según tu tolerancia al riesgo y deja que el modelo de pago por uso estándar y el modelo de pago por uso prioritario se encarguen del resto.
Compra capacidad de procesamiento aprovisionada a largo plazo: Un compromiso de PT de 1 año tiene un precio con un descuento del 26% en comparación con la PT de 1 mes, lo que genera ahorros significativos en los costos. Siempre puedes cambiar el modelo asociado con las GSU de capacidad de procesamiento aprovisionada que compraste para aprovechar las capacidades de nuestro modelo más reciente.
Usa Flex PayGo: Identifica cualquier parte de tu canalización que no sea sensible a la latencia (p.ej., el resumen en segundo plano o la extracción de datos) y muévela a Flex PayGo para reducir los costos en aproximadamente un 50%.
Usa el procesamiento por lotes: Para los trabajos asíncronos, como el procesamiento de conjuntos de datos grandes, el procesamiento por lotes es significativamente más económico (50%) que el procesamiento de solicitudes de forma secuencial con el modelo de pago estándar por uso.
Usa el almacenamiento en caché del contexto: El almacenamiento en caché del contexto ayuda a reducir el costo y la latencia de las solicitudes que contienen contenido repetido. Aumenta las tasas de acierto de caché colocando contenido grande y común al principio de tu instrucción y enviando solicitudes con un prefijo similar en un corto período.
Selecciona un modelo más económico: Si tu caso de uso lo permite, usa uno de nuestros modelos más pequeños, como Flash-Lite, que tiene un precio por token más bajo que nuestros modelos de servicio pesado y con todas las funciones.

Opciones de consumo Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Opciones de consumo

Elige la opción adecuada para tu carga de trabajo

Cargas de trabajo sensibles a la latencia

Cargas de trabajo asíncronas de gran volumen

Cargas de trabajo tolerantes a la latencia y sensibles a los costos

Estrategias de optimización

Latencia

Disponibilidad

Costo

Opciones de consumo