Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA en GKE

En esta página, se describen las técnicas disponibles que puedes usar para obtener aceleradores de procesamiento, como GPU o TPU, según los requisitos de tus cargas de trabajo de IA/AA. Estas técnicas se denominan opciones de consumo de aceleradores en GKE. Comprender las diferentes opciones de consumo te ayuda a optimizar el uso de los recursos para evitar la subutilización, aumentar la probabilidad de obtener recursos y equilibrar el costo y el rendimiento.

Esta página está dirigida a los administradores y operadores de plataformas que se coordinan con los ingenieros de aprendizaje automático (AA) para obtener los recursos necesarios para implementar correctamente las cargas de trabajo de IA/AA.

Para obtener más información sobre los roles comunes y las tareas de ejemplo a las que hacemos referencia en Google Cloud el contenido de, consulta Roles y tareas comunes del usuario de GKE.

Comprende las opciones de consumo

Puedes seleccionar una de las siguientes opciones para consumir aceleradores en GKE:

  • A pedido: Consumes TPU o GPU en GKE sin organizar la capacidad con anticipación. Antes de solicitar recursos, debes tener suficiente cuota a pedido para el tipo y la cantidad específicos de aceleradores. La opción a pedido es la opción de consumo más flexible; sin embargo, no hay garantía de que haya suficientes recursos a pedido disponibles para satisfacer tu solicitud.
  • Reservas: Reservas recursos por un período determinado. Una reserva puede ser cualquiera de las siguientes:
    • Reservas futuras: Reservas recursos para períodos más largos en un momento específico en el futuro. Tienes acceso exclusivo a los recursos reservados durante ese período. Las reservas futuras requieren la participación de un administrador técnico de cuentas (TAM). Para obtener más información, consulta la guía de TPU y GPU.
    • Reservas futuras de hasta 90 días (en modo de calendario): Solicitas capacidad para un período especificado, con un asesor de calendario que sugiere fechas disponibles. Las reservas futuras de hasta 90 días (en modo de calendario) ofrecen más flexibilidad para períodos más cortos y búsqueda de capacidad de autoservicio. Para obtener más información, consulta Solicitudes de reservas futuras en el modo de calendario.
    • Reservas a pedido: Puedes solicitar que se aprovisione una reserva a pedido en cuanto esté disponible la capacidad, de manera similar a la opción a pedido. Mientras la reserva esté activa, pagarás por los recursos, ya sea que los uses o no.
  • Inicio flexible: Proteges los recursos asignados de forma densa para cargas de trabajo de corta duración sin una reserva. Solicitas una cantidad específica de GPU o TPU, y Compute Engine las aprovisiona cuando la capacidad está disponible. Las GPU o TPU se ejecutan sin interrupciones durante un máximo de siete días. Para obtener más información, consulta el aprovisionamiento de inicio flexible.
  • Spot: Aprovisionas VMs Spot, lo que te permite obtener descuentos significativos, pero las VMs Spot se pueden interrumpir en cualquier momento, con una advertencia de 30 segundos. Para obtener más información, consulta VMs Spot.

Comprende la cuota de aceleradores en GKE

Las cuotas y los límites del sistema restringen el uso de Google Cloud recursos para admitir la disponibilidad de recursos para todos los Google Cloud usuarios. Las cuotas tienen valores predeterminados, pero, por lo general, puedes solicitar ajustes. Los límites del sistema son valores fijos que no se pueden cambiar. De forma predeterminada, los proyectos no suelen tener una cuota de aceleradores significativa. Debes solicitar y recibir aprobación para la cuota de tipos y regiones específicos de aceleradores.

Ten en cuenta las siguientes características cuando administres las cuotas que necesitan tus cargas de trabajo:

  • Debes solicitar la cuota necesaria para cada opción de consumo. Para identificar la cuota requerida para cada opción de consumo, consulta los parámetros "Cuota" correspondientes que se enumeran en la tabla Elige una opción de consumo. Si no hay suficiente cuota, los intentos de crear clústeres, grupos de nodos o implementar cargas de trabajo que requieran aceleradores fallarán con un error Quota exceeded.

  • Debes solicitar una cuota cuando usas clases de procesamiento personalizadas en Autopilot. Los nodos aprovisionados para cumplir con los requisitos de la clase de procesamiento aún consumen la cuota de tu proyecto para los aceleradores especificados.

  • Google Cloud Las cuentas de prueba gratuita tienen limitaciones para solicitar aumentos de cuota para recursos de alto valor, como GPU y TPU. Para tener acceso a la cuota de aceleradores, actualiza a una cuenta pagada.

Para verificar y solicitar cuota, ve a la página Cuotas en la Google Cloud consola. Puedes filtrar las cuotas de aceleradores y solicitar aumentos.

Elige una opción de consumo

Usa las siguientes consideraciones para elegir la mejor opción de consumo para tu carga de trabajo de IA/AA:

  • Tipo de carga de trabajo: Ten en cuenta el tipo de carga de trabajo que deseas implementar. Los requisitos de GKE varían si ejecutas una carga de trabajo de entrenamiento o de inferencia:
    • Entrenamiento: Requiere recursos de alto rendimiento con una memoria significativa. Las cargas de trabajo de entrenamiento suelen tener una vida útil bien definida. Estas cargas de trabajo suelen ser más fáciles de planificar porque son menos propensas a aumentos repentinos en el consumo de recursos.
    • Inferencia: Por lo general, requiere aceleradores optimizados para la escalabilidad y un costo más bajo. Las cargas de trabajo de inferencia pueden requerir una memoria de acelerador significativa durante los aumentos repentinos en el consumo de recursos.
  • Vida útil según la fase de implementación: Ten en cuenta tu objetivo comercial si ejecutas una prueba de concepto (POC), una evaluación de la plataforma, un desarrollo o prueba de aplicaciones, una producción o una optimización.
  • Tiempo de aprovisionamiento: Determina si tu carga de trabajo requiere una ejecución inmediata o si se puede ejecutar en el futuro. Si es posible la ejecución futura, determina qué tan flexible puede ser la hora de inicio.
  • Equilibrio entre costo y rendimiento: Evalúa los requisitos de rendimiento de tu carga de trabajo y las restricciones presupuestarias para seleccionar el acelerador más rentable. Considera la compensación entre el costo de los aceleradores y sus características de rendimiento. Recuerda que los aceleradores nuevos pueden mejorar las relaciones costo-rendimiento.

Usa la siguiente tabla para elegir una opción de consumo:

Tipo de carga de trabajo Tiempo de aprovisionamiento Vida útil Opción de consumo recomendada
  • Cargas de trabajo prolongadas y a gran escala, como el entrenamiento previo de modelos de base o la inferencia de múltiples hosts
  • Cargas de trabajo de producción
Inmediato (con reserva aprobada) A largo plazo (por reserva)

Si deseas consumir cualquier GPU (excepto A4X, A4 o A3 Ultra) o cualquier TPU, usa Reservas a pedido:

  • Costo: Se te cobra por el período de reserva completo.
  • Cuota: La cuota aumenta automáticamente antes de que se entregue la capacidad.

Si deseas consumir aceleradores G2, A2, A3 High con 8 GPU o A3 Mega, usa Reservas futuras:

  • Costo: Se te cobra por el período de reserva completo.
  • Cuota: La cuota aumenta automáticamente antes de que se entregue la capacidad.
  • Cargas de trabajo distribuidas de corta duración, como el ajuste de modelos, las simulaciones o la inferencia por lotes, en las que se necesita una hora de inicio precisa
  • Cargas de trabajo para la evaluación de la plataforma, la evaluación comparativa o las pruebas de optimización
Inmediato (con reserva aprobada) Hasta 90 días

Reservas futuras de hasta 90 días (en modo de calendario):

  • Costo: Con descuento (hasta un 53%). Se te cobra por el período de reserva.
  • Cuota: No se cobra cuota.
  • Aceleradores compatibles: A4, A3 Ultra, A3 Mega, A3 High con 8 GPU, Ironwood (TPU7x), TPU v6e, TPU v5p o TPU v5e.
  • Cargas de trabajo por lotes, como el entrenamiento de modelos pequeños, el ajuste o la inferencia escalable, en las que la hora de inicio es flexible
  • Cargas de trabajo para POC o pruebas de integración
A pedido (sujeto a disponibilidad) Hasta 7 días por asignación

Modo de aprovisionamiento de inicio flexible:

  • Cargas de trabajo tolerantes a errores y de menor prioridad, como CI/CD, análisis de datos o computación de alto rendimiento (HPC)
  • Cargas de trabajo altamente interrumpibles
A pedido (sujeto a disponibilidad) Variable, se puede interrumpir con una advertencia de 30 segundos

VMs Spot:

  • Cargas de trabajo de uso general que requieren ejecución inmediata
Inmediato (sujeto a disponibilidad) Sin límite

A pedido (GPU ou TPU):

  • Costo: Pagas por lo que usas.
  • Cuota: Se cobra la cuota de GPU o TPU a pedido.
  • Aceleradores compatibles: Todas las familias de GPU, excepto A4X, A4 o A3 Ultra. Todas las versiones de TPU.

¿Qué sigue?