Opciones de consumo

Gemini Enterprise Agent Platform ofrece varias opciones para obtener y usar recursos de procesamiento cuando se usan modelos generativos. Estas opciones de consumo están diseñadas para satisfacer las necesidades de cualquier carga de trabajo, desde la creación de prototipos iniciales hasta las implementaciones de producción. Seleccionar la opción correcta es fundamental para equilibrar el rendimiento, la confiabilidad y el costo.

En esta guía, se detallan las opciones de consumo disponibles, se te ayuda a asignarlas a los requisitos específicos de tu carga de trabajo y se proporcionan estrategias para optimizar la latencia, la disponibilidad y el costo.

Opciones de consumo

Gemini Enterprise Agent Platform proporciona cinco opciones de consumo adaptadas a diferentes patrones de tráfico y necesidades empresariales:

Opción de consumo Descripción Es ideal para Precios
Capacidad de procesamiento aprovisionada Proporciona capacidad de procesamiento garantizada durante un período de compromiso Cargas de trabajo críticas, de estado estable y siempre activas en las que se necesita un ANS Basado en el compromiso (disponible en planes de 1 semana, 1 mes, 3 meses y 1 año)
PayGo Standard Opción flexible de pago por uso sin compromiso por adelantado Opción predeterminada para casos de uso cotidianos con flexibilidad para la demanda de tráfico variable Por token (tarifa estándar)
Prioridad Ofrece mayor confiabilidad a través del procesamiento prioritario y, al mismo tiempo, mantiene la flexibilidad de PayGo Cargas de trabajo importantes que requieren mayor confiabilidad y límites que PayGo estándar Por token (tarifa premium)
Flex Opción rentable para cargas de trabajo tolerantes a la latencia Tareas que pueden tolerar tiempos de respuesta más lentos y una limitación más alta a cambio de precios más bajos Por token (tarifa con descuento)
Inferencia por lotes Costo optimizado para el procesamiento asíncrono de gran volumen Trabajos a gran escala en los que se necesitan resultados en un período más largo Por token (tarifa con descuento)

Para obtener información sobre los precios, consulta la página de precios.

Elige la opción adecuada para tu carga de trabajo

En las siguientes secciones, se proporciona orientación para seleccionar la opción de consumo más adecuada según los requisitos y las características específicos de tu carga de trabajo.

Cargas de trabajo sensibles a la latencia

Las organizaciones a menudo deben hacer concesiones entre la confiabilidad y el costo cuando eligen los modelos de consumo adecuados. Si bien la capacidad de procesamiento aprovisionada ofrece la mayor confiabilidad, puede causar una subutilización si tu tráfico tiene aumentos repentinos. Del mismo modo, PayGo podría ofrecer la máxima flexibilidad, pero no puede garantizar una calidad de servicio. En la siguiente sección, se describe la mejor manera de combinar estos mecanismos para lograr el resultado óptimo:

  1. Cubre el tráfico de referencia con la capacidad de procesamiento aprovisionada. Esto mejora el uso de tu capacidad reservada, lo que la hace económica y, al mismo tiempo, proporciona confiabilidad garantizada para el núcleo de tu tráfico. Para lograrlo, haz lo siguiente:
    • Analiza tus patrones de tráfico a nivel de minutos o segundos.
    • Determina la cantidad de tráfico que debe cubrir la capacidad de procesamiento aprovisionada. Debe cubrir tu tráfico de mayor prioridad.
  2. Administra el tráfico excedente con PayGo estándar o prioritario: De forma predeterminada, el tráfico que supera tu línea de base de capacidad de procesamiento aprovisionada (llamado tráfico excedente) se controla con PayGo estándar. Si observas una mayor variación en el rendimiento de las solicitudes por encima del límite de TPM, puedes mitigar esa variación a través de la optimización. PayGo prioritario te da la opción de lograr un rendimiento confiable a un precio premium, sujeto al límite de aumento.

Cargas de trabajo asíncronas de gran volumen

Si tienes un gran backlog de solicitudes (por ejemplo, si tienes millones de documentos para resumir) y la latencia inmediata no es una preocupación, debes enviar un trabajo por lotes formulando solicitudes en un archivo JSON o una hoja de cálculo. Esto es útil para casos de uso como el etiquetado de imágenes, el procesamiento masivo de documentos o el análisis de sentimiento sobre datos históricos.

Esta es la opción más rentable para la inferencia de gran volumen.

Cargas de trabajo tolerantes a la latencia y sensibles al costo

Si necesitas procesar solicitudes en las que la aplicación puede esperar una respuesta pero la reducción de costos es una prioridad, debes usar Flex PayGo. Flex PayGo ofrece precios por token reducidos para las solicitudes que no requieren ejecución inmediata. Esta opción es útil para casos de uso como el análisis sin conexión, la anotación de datos, la creación de catálogos de productos o la traducción.

Estrategias de optimización

Una vez que hayas seleccionado tu modelo de consumo, usa las siguientes estrategias para optimizar aún más la latencia, la disponibilidad y el costo.

Latencia

Cuando compilas aplicaciones interactivas, la latencia cumple un rol fundamental en la experiencia del usuario. La latencia se refiere al tiempo que tarda un modelo en procesar la instrucción de entrada y generar una respuesta de salida correspondiente. Cuando examines la latencia con un modelo, ten en cuenta lo siguiente:

  • _Tiempo hasta el primer token (TTFT)_: Es el tiempo que tarda el modelo en producir el primer token de la respuesta después de recibir la instrucción. El TTFT es particularmente relevante para las aplicaciones de transmisión, en las que proporcionar comentarios inmediatos es fundamental.
  • Tiempo hasta el último token (TTLT): Es el tiempo total que tarda el modelo en procesar la instrucción y generar la respuesta.

Para optimizar la latencia, haz lo siguiente:

  • Selecciona el modelo adecuado para tu caso de uso: Gemini Enterprise Agent Platform proporciona una amplia variedad de modelos con diferentes capacidades y características de rendimiento. Evalúa con cuidado los requisitos de velocidad y calidad del resultado para elegir el modelo que mejor se alinee con tu caso de uso. Para obtener una lista de los modelos disponibles, consulta Model Garden.
  • Reduce el tamaño de la instrucción: Crea instrucciones claras y concisas que transmitan de manera eficaz tu intent sin detalles innecesarios ni redundancia. Las instrucciones más cortas reducen el tiempo hasta el primer token.
  • Limita los tokens de salida:
    • Usa las instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o limite el resultado a una cantidad específica de oraciones o párrafos. Esta estrategia puede reducir tu tiempo hasta el último token.
    • Para restringir el resultado, establece un límite. Usa el parámetro max_output_tokens para establecer un límite máximo en la longitud de la respuesta generada, lo que evita un resultado demasiado largo. La latencia es directamente proporcional a la cantidad de tokens generados; generar menos tokens genera respuestas más rápidas. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas en la mitad de la oración.
  • Usa la capacidad de procesamiento aprovisionada: Para obtener el rendimiento más coherente, usa la capacidad de procesamiento aprovisionada. Esto elimina la variabilidad causada por los "inicios en frío" o la puesta en cola que pueden ocurrir ocasionalmente en los modelos de PayGo durante el tráfico alto.
  • Limita el presupuesto de pensamiento: Si usas un modelo que admite el pensamiento, puedes reducir la latencia disminuyendo el presupuesto de pensamiento. Si limitas los tokens de razonamiento interno que genera el modelo antes de responder, reduces el tiempo total de procesamiento. Sin embargo, debes asegurarte de que el presupuesto siga siendo suficiente para la complejidad de la tarea para evitar degradar la calidad de la respuesta.
  • Usa la transmisión para tus respuestas: La transmisión mejora la capacidad de respuesta percibida y crea una experiencia del usuario más interactiva. Con la transmisión, el modelo comienza a enviar su respuesta antes de generar el resultado completo. Esto permite el procesamiento del resultado en tiempo real, por lo que puedes actualizar de inmediato la interfaz de usuario y realizar otras tareas simultáneas.

Disponibilidad

Para optimizar la disponibilidad, haz lo siguiente:

  • Implementa la lógica de reintento: Implementa la retirada exponencial para los errores 429, en especial cuando usas PayGo estándar.
  • Usa una implementación híbrida: Como se detalla en Elige la opción adecuada para tu carga de trabajo, no dependas únicamente de PayGo para las apps de producción críticas. La combinación de la capacidad de procesamiento aprovisionada y PayGo proporciona la mayor garantía contra el agotamiento de recursos (errores 429).
  • Administra tu cuota de capacidad de procesamiento aprovisionada: Supervisa periódicamente tu consumo de TPM y aumenta las GSU de PT antes de los eventos de tráfico previstos (como los lanzamientos de productos). Puedes usar una política de alertas para automatizar la supervisión.
  • Usa el extremo global: Usa el extremo global para utilizar el grupo de capacidad global de Google y minimizar la limitación debido a las restricciones de capacidad regionales.
  • Suaviza tu tráfico para reducir los aumentos repentinos siempre que sea posible: Las tasas de tráfico de PayGo más altas (TPM) suelen asociarse con tasas de limitación más altas.
  • Traslada el tráfico a las horas de menor demanda: El uso del modelo en conjunto suele seguir un patrón diurno. Cambiar la hora de tu carga de trabajo a las horas de menor demanda o los fines de semana puede mejorar significativamente la disponibilidad.

Costo

Para optimizar el costo, haz lo siguiente:

  • Ajusta el tamaño de tu capacidad de procesamiento aprovisionada: Por lo general, no necesitas aprovisionar PT para cubrir la demanda máxima. El aprovisionamiento para la demanda máxima reduce el uso general y aumenta los costos. Intenta cubrir un porcentaje específico de tu tráfico según tu tolerancia al riesgo y deja que PayGo estándar y PayGo prioritario se encarguen del resto.
  • Compra capacidad de procesamiento aprovisionada a largo plazo: Un compromiso de PT de 1 año tiene un precio con un descuento del 26% en comparación con la PT de 1 mes, lo que genera ahorros significativos en los costos. Siempre puedes cambiar el modelo asociado con las GSU de capacidad de procesamiento aprovisionada que compraste para aprovechar nuestras capacidades de modelo más recientes.
  • Usa Flex PayGo: Identifica cualquier parte de tu canalización que no sea sensible a la latencia (p.ej., resumen en segundo plano, extracción de datos) y muévela a Flex PayGo para reducir los costos en un 50% aproximadamente.
  • Usa el procesamiento por lotes: Para los trabajos asíncronos, como el procesamiento de grandes conjuntos de datos, el procesamiento por lotes es mucho más económico (50%) que el procesamiento de solicitudes de forma secuencial con PayGo estándar.
  • Usa el almacenamiento de contexto en caché: El almacenamiento de contexto en caché ayuda a reducir el costo y la latencia de las solicitudes que contienen contenido repetido. Aumenta las tasas de acierto de caché colocando contenido grande y común al comienzo de tu instrucción y enviando solicitudes con un prefijo similar en un período breve.
  • Selecciona un modelo de menor precio: Si tu caso de uso lo permite, usa uno de nuestros modelos más pequeños, como Flash-Lite, que tiene un precio por token más bajo que nuestros modelos de servicio pesado y con todas las funciones.