Vertex AI ofrece varias opciones para obtener y usar recursos de procesamiento cuando se usan modelos generativos. Estas opciones de consumo están diseñadas para satisfacer las necesidades de cualquier carga de trabajo, desde la creación inicial de prototipos hasta las implementaciones de producción. Seleccionar la opción correcta es fundamental para equilibrar el rendimiento, la confiabilidad y el costo.
En esta guía, se detallan las opciones de consumo disponibles, se te ayuda a correlacionarlas con los requisitos específicos de tu carga de trabajo y se proporcionan estrategias para optimizar la latencia, la disponibilidad y el costo.
Opciones de consumo
Vertex AI proporciona cinco opciones de consumo adaptadas a diferentes patrones de tráfico y necesidades comerciales:
| Opción de consumo | Descripción | Ideal para | Precios | |
|---|---|---|---|---|
| Capacidad de procesamiento aprovisionada | Proporciona capacidad de procesamiento garantizada durante un período de compromiso | Cargas de trabajo críticas, en estado estable y siempre activas en las que se necesita un ANS | Basado en compromiso (disponible en planes de 1 semana, 1 mes, 3 meses y 1 año) | |
| PayGo | Standard | Opción flexible de pago por uso sin compromiso por adelantado | Opción predeterminada para casos de uso cotidianos con flexibilidad para la demanda de tráfico variable | Por token (tarifa premium) |
| Prioridad | Ofrece mayor confiabilidad a través del procesamiento prioritario y mantiene la flexibilidad de PayGo | Cargas de trabajo importantes que requieren mayor confiabilidad y límites que el modelo estándar de PayGo | Por token (tarifa estándar) | |
| Flex | Opción rentable para cargas de trabajo tolerantes a la latencia | Tareas que pueden tolerar un tiempo de respuesta más lento y una mayor limitación, lo que ofrece precios más bajos | Por token (tarifa con descuento) | |
| Inferencia por lotes | Optimizado para el procesamiento asíncrono de gran volumen con costos optimizados | Trabajos a gran escala en los que se necesitan resultados en un plazo más largo | Por token (tarifa con descuento) | |
Para obtener información sobre los precios, consulta la página de precios.
Elige la opción adecuada para tu carga de trabajo
Cargas de trabajo sensibles a la latencia
Las organizaciones a menudo deben hacer concesiones entre la confiabilidad y el costo cuando eligen los modelos de consumo adecuados. Si bien la capacidad de procesamiento aprovisionada ofrece la mayor confiabilidad, puede causar una subutilización si tu tráfico tiene aumentos repentinos. Del mismo modo, PayGo puede ofrecer la máxima flexibilidad, pero no puede garantizar una calidad de servicio. En la siguiente sección, se describe cómo combinar mejor estos mecanismos para lograr el resultado óptimo:
- Cubre el tráfico de referencia con la capacidad de procesamiento aprovisionada. Esto mejora la utilización de tu capacidad reservada, lo que la hace económica y, a la vez, proporciona confiabilidad garantizada para el núcleo de tu tráfico. Para lograrlo, haz lo siguiente:
- Analiza tus patrones de tráfico a nivel de minutos o segundos.
- Determina la cantidad de tráfico que cubrirá la capacidad de procesamiento aprovisionada. Debe cubrir el tráfico de mayor prioridad.
- Administra el tráfico excedente con PayGo estándar o prioritario: De forma predeterminada, el tráfico que supera tu valor de referencia de capacidad de procesamiento aprovisionada (llamado tráfico excedente) se controla con PayGo estándar. Si observas una mayor variación en el rendimiento de las solicitudes que superan el límite de TPM, puedes mitigarla con la optimización. Priority PayGo te brinda la opción de lograr un rendimiento confiable a un precio premium, sujeto al límite de aumento.
Cargas de trabajo asíncronas de gran volumen
Si tienes una gran cantidad de solicitudes pendientes (por ejemplo, si tienes millones de documentos para resumir) y la latencia inmediata no es un problema, debes enviar un trabajo por lotes formulando solicitudes en un archivo JSON o una hoja de cálculo. Esto es útil para casos de uso como el etiquetado de imágenes, el procesamiento masivo de documentos o el análisis de opiniones sobre datos históricos.
Esta opción es la más rentable para la inferencia de gran volumen.
Cargas de trabajo tolerantes a la latencia y sensibles a los costos
Si necesitas procesar solicitudes (como la anotación de datos o la creación de catálogos) en las que la aplicación puede esperar una respuesta, pero la reducción de costos es una prioridad, debes usar Flex PayGo. Flex PayGo ofrece precios por token reducidos para las solicitudes que no requieren ejecución inmediata. Esta opción es útil para casos de uso como el análisis sin conexión, la anotación de datos, la compilación de catálogos de productos o la traducción.
Estrategias de optimización
Una vez que hayas seleccionado tu modelo de consumo, usa las siguientes estrategias para optimizar aún más la latencia, la disponibilidad y el costo.
Latencia
Para optimizar la latencia, haz lo siguiente:
- Selecciona el modelo adecuado para tu caso de uso: Vertex AI proporciona una amplia variedad de modelos con diferentes capacidades y características de rendimiento. Evalúa con cuidado los requisitos de velocidad y calidad del resultado para elegir el modelo que mejor se alinee con tu caso de uso. Para obtener una lista de los modelos disponibles, consulta Model Garden.
- Reduce el tamaño de las instrucciones: Crea instrucciones claras y concisas que transmitan de manera eficaz tu intención sin detalles innecesarios ni redundancia. Las instrucciones más cortas reducen el tiempo hasta el primer token.
- Limita los tokens de salida:
- Usa instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o limite el resultado a una cantidad específica de oraciones o párrafos. Esta estrategia puede reducir tu tiempo hasta el último token.
- Para restringir el resultado, establece un límite. Usa el parámetro
max_output_tokenspara establecer un límite máximo en la longitud de la respuesta generada, lo que evita un resultado demasiado largo. La latencia es directamente proporcional a la cantidad de tokens generados. Generar menos tokens produce respuestas más rápidas. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas en la mitad de la oración.
- Usa la capacidad de procesamiento aprovisionada: Para obtener el rendimiento más coherente, usa la capacidad de procesamiento aprovisionada. Esto elimina la variabilidad causada por los "inicios en frío" o las filas que pueden ocurrir ocasionalmente en los modelos de pago por uso durante los períodos de tráfico alto.
- Limita el presupuesto de pensamiento: Si usas un modelo que admite Thinking, puedes reducir la latencia disminuyendo el presupuesto de pensamiento. Si limitas los tokens de razonamiento interno que genera el modelo antes de responder, reduces el tiempo de procesamiento general. Sin embargo, debes asegurarte de que el presupuesto siga siendo suficiente para la complejidad de la tarea y evitar que se deteriore la calidad de las respuestas.
Disponibilidad
Sigue estos pasos para optimizar la disponibilidad:
- Implementa la lógica de reintentos: Implementa la retirada exponencial para los errores 429, en especial cuando uses el modelo de pago por uso estándar.
- Usa una implementación híbrida: Como se detalla en las secciones anteriores, no confíes solo en PayGo para las apps de producción críticas. La combinación de la capacidad de procesamiento aprovisionada y la modalidad de pago por uso proporciona la mayor garantía contra el agotamiento de recursos (errores 429).
- Administra tu cuota de capacidad de procesamiento aprovisionada: Supervisa periódicamente tu consumo de TPM y aumenta las GSU de PT antes de los eventos de tráfico anticipados (como los lanzamientos de productos). Puedes usar una política de alertas para automatizar la supervisión.
- Usa el extremo global: Usa el extremo global para aprovechar el grupo de capacidad global de Google y minimizar la limitación debido a las restricciones de capacidad regionales.
- Suaviza tu tráfico para reducir los picos siempre que sea posible: Las tasas de tráfico de pago por uso (TPM) más altas tienden a asociarse con tasas de limitación más altas.
- Traslada el tráfico a las horas no pico: En general, el uso del modelo sigue un patrón diurno. Cambiar el horario de tu carga de trabajo a horas fuera de las horas pico o a los fines de semana podría mejorar significativamente la disponibilidad.
Costo
Para optimizar los costos, haz lo siguiente:
- Usa el ajuste de tamaño adecuado para la capacidad de procesamiento aprovisionada: Por lo general, no es necesario aprovisionar la PT en el punto máximo, lo que reduce la utilización general de la PT y aumenta los costos totales. Establece un objetivo para un determinado percentil del tráfico según tu tolerancia al riesgo y deja que los planes Estándar prepagado y Prioritario prepagado se encarguen del resto.
- Compra capacidad de procesamiento aprovisionada a largo plazo: La capacidad de procesamiento de 1 año tiene un precio con un 26% de descuento en comparación con la capacidad de procesamiento de 1 mes, lo que genera ahorros significativos en los costos. Siempre puedes cambiar las GSU de capacidad de procesamiento aprovisionada que compraste entre diferentes modelos para aprovechar las capacidades de nuestros modelos más recientes.
- Usa Flex PayGo: Identifica cualquier parte de tu canalización que no sea sensible a la latencia (p.ej., el resumen en segundo plano o la extracción de datos) y muévela a Flex para reducir los costos en aproximadamente un 50%.
- Usa el procesamiento por lotes: Para los trabajos asíncronos, como el procesamiento de conjuntos de datos grandes, el procesamiento por lotes es significativamente más económico (50%) que el procesamiento de solicitudes de forma secuencial con el modelo de pago estándar por uso.
- Usa el almacenamiento de contexto en caché: El almacenamiento de contexto en caché ayuda a reducir el costo y la latencia de las solicitudes que contienen contenido repetido. Aumenta la tasa de aciertos de la caché colocando contenido grande y común al principio de tu instrucción y enviando solicitudes con un prefijo similar en un corto período.
- Selecciona un modelo de menor precio: Si tu caso de uso lo permite, usa uno de nuestros modelos más pequeños, como Flash-Lite, que tiene un precio por token más bajo que nuestros modelos de uso intensivo y con todas las funciones.