Descripción general de la creación de clústeres

En este documento, se resume cómo crear un clúster para tus cargas de trabajo de IA en AI Hypercomputer. En particular, este documento te guía a través del proceso y las decisiones que debes tomar cuando inicias un clúster.

Antes de comenzar

  • Debes tener una carga de trabajo preexistente que quieras admitir.

  • Debes conocer la terminología que se usa comúnmente para las cargas de trabajo de IA y AA, como el entrenamiento y la inferencia de modelos.

Iniciar un clúster

El inicio de un clúster implica los siguientes pasos:

  1. Determina tu carga de trabajo y elige un tipo de máquina
  2. Elige una opción de consumo y obtén capacidad
  3. Elige una opción de implementación
  4. Elegir un organizador
  5. Elige la imagen del sistema operativo y del clúster
  6. Crea tu clúster

Determina tu carga de trabajo y elige un tipo de máquina

Selecciona un tipo de máquina para tu carga de trabajo de IA. AI Hypercomputer admite la creación de clústeres con las series de máquinas A4X Max, A4X, A4 y A3. Ten en cuenta las siguientes recomendaciones para el uso de la máquina:

  • Para el entrenamiento y la inferencia de modelos de base: A4X Max o A4X

  • Para el entrenamiento, el ajuste y la inferencia de modelos grandes: A4 o A3 Ultra

  • Para la inferencia y el ajuste de modelos convencionales: A3 Mega o A3 High (8 GPUs)

  • Para la entrega de inferencias: A3 Edge

Para obtener información detallada sobre cada serie de máquinas, consulta Tipos de máquinas con GPU. Para obtener información detallada sobre las recomendaciones de cargas de trabajo para cada máquina, consulta Configuraciones recomendadas.

Elige una opción de consumo y obtén capacidad

Selecciona una opción de consumo para tus recursos de GPU según la disponibilidad de tu carga de trabajo y el tipo de máquina elegido. Por ejemplo, para usar los tipos de máquinas A4X Max o A4X, debes reservar capacidad para una fecha y hora específicas con el modelo de consumo de reservas futuras. En las siguientes opciones, se resumen los modelos de consumo:

  • Reservas futuras: Disponibles para los tipos de máquinas A4X Max, A4X, A4 y A3 Ultra, con asignación densa de recursos y hasta un 53% de descuento en CPU virtuales y GPU Las reservas futuras son ideales para las cargas de trabajo que requieren estabilidad durante un período prolongado, como el entrenamiento previo de modelos de base o la inferencia de modelos de base de varios hosts. Para usar esta opción de consumo, debes solicitar capacidad a través de tu equipo de cuentas para una fecha y hora de inicio futuras.

  • Reservas futuras en modo de calendario: Disponibles para los tipos de máquinas A4, A3 Ultra, A3 Mega y A3 High (solo VMs con 8 GPUs), con asignación densa de recursos y hasta un 53% de descuento en las CPU virtuales y las GPUs. Las reservas futuras en modo de calendario te ayudan a reservar recursos para cargas de trabajo que se ejecutan durante un máximo de 90 días y requieren estabilidad, como el entrenamiento previo o el ajuste de modelos. Sin embargo, para usar esta opción de consumo, debes crear una solicitud de reserva para reservar recursos en una fecha y hora futuras, y Google Cloud debe aprobar tu solicitud.

  • Inicio flexible: Disponible para todos los tipos de máquinas con GPU, excepto A4X Max y A4X. El inicio flexible te permite crear clústeres densos de corta duración que duran hasta siete días y tienen descuentos de hasta el 53% en las CPU virtuales y las GPUs para los tipos de máquinas A2 y posteriores. Puedes crear clústeres de inicio flexible directamente a través de Compute Engine, Cluster Director, Cluster Toolkit o GKE. Sin embargo, los clústeres no están disponibles de inmediato; Google los crea en cuanto hay recursos disponibles.

  • Spot: Disponible para todos los tipos de máquinas con GPU, excepto A4X Max y A4X. Las VMs Spot te permiten crear recursos de procesamiento de inmediato según la disponibilidad. Sin embargo, Compute Engine puede interrumpir máquina virtual (VM) en cualquier momento. Las VMs Spot tienen el mayor descuento posible en Compute Engine (entre el 61% y el 90%).

Para obtener más información sobre las opciones de consumo, consulta Comparación de las opciones de consumo.

Elige una opción de implementación

Según el nivel de control que necesites sobre la implementación de tu clúster, elige entre una implementación altamente administrada o una menos administrada que te brinde más control sobre tu infraestructura.

Altamente administrado

Si quieres que Google implemente y configure tu infraestructura, usa Cluster Director, Cluster Toolkit o GKE.

  • Cluster Director: Es un producto deGoogle Cloud que automatiza la configuración compleja de los clústeres, lo que te ayuda a configurar recursos de procesamiento, redes y almacenamiento para tus clústeres y, así, maximizar el rendimiento y minimizar los tiempos de inactividad. Cluster Director está diseñado para administradores de TI y para investigadores de IA que desean evitar la sobrecarga de administrar un clúster y, en cambio, enfocarse en ejecutar sus cargas de trabajo.

  • Cluster Toolkit: Es una herramienta de código abierto que ofrece Google y que simplifica la configuración y la implementación de clústeres para GKE o Compute Engine. Usas esquemas predefinidos para implementar configuraciones comunes, como tipos de máquinas A4 con Slurm. Puedes modificar los planos para personalizar las implementaciones y tu pila de software.

  • GKE: Es un servicio de Kubernetes administrado y una plataforma de organización de contenedores de código abierto. GKE ofrece funciones como el ajuste de escala automático y la alta disponibilidad. También puede organizar aplicaciones en contenedores, admitir hardware especializado y es compatible con el ecosistema de Google Cloud, lo que lo hace adecuado para implementar y administrar cargas de trabajo de IA o AA. Puedes implementar clústeres de GKE directamente o con Cluster Toolkit. Puedes elegir entre el modo Standard o Autopilot de GKE.

Menos administración, más control

Para tener un control más detallado sobre tus clústeres y el software instalado en ellos, crea un clúster de Compute Engine con grupos de instancias administrados (MIG) de Compute Engine o crea instancias de forma masiva. Luego, instala manualmente en las instancias el software clave que necesites.

Elige un organizador

Un organizador automatiza la administración de tus clústeres. Con un orquestador, no tienes que administrar cada instancia de procesamiento del clúster. Un orquestador, como Slurm o GKE, controla tareas como la puesta en cola de trabajos, la asignación de recursos, el ajuste de escala automático (en el caso de GKE) y otras tareas diarias de administración de clústeres.

  • Slurm: Slurm es un orquestador de código abierto que se usa comúnmente para cargas de trabajo de HPC, IA o AA. Para usar Slurm, puedes usar Cluster Toolkit (que ofrece planos de clústeres que instalan Slurm automáticamente en tus clústeres) o puedes instalar Slurm manualmente en un clúster de Compute Engine.

  • GKE: GKE es un servicio administrado que se basa en Kubernetes, una plataforma de organización de contenedores de código abierto. GKE es ideal para implementar y administrar cargas de trabajo de IA o AA, debido a su capacidad de organizar aplicaciones alojadas en contenedores, su compatibilidad con hardware especializado y su lugar en el ecosistema de Google Cloud. Puedes implementar clústeres de GKE directamente o con Cluster Toolkit.

  • Trae tu propio orquestador: Si deseas usar otros orquestadores, debes hacerlo en tus clústeres de Compute Engine. Sin embargo, crear un clúster de Compute Engine es la opción menos administrada que se ofrece enGoogle Cloud. Esta elección significa que eres responsable de configurar, mantener y actualizar tus instancias.

Elige la imagen del sistema operativo

Según si usas GKE o Compute Engine, selecciona una imagen que contenga el sistema operativo que elegiste, como Container-Optimized OS para clústeres de GKE, o una imagen de SO del acelerador para clústeres de Compute Engine. Además, también puedes seleccionar una imagen de la capa de software de aprendizaje profundo (DSLS) para tus contenedores.

Para obtener información detallada, consulta las imágenes de AI Hypercomputer.

Imágenes para clústeres de GKE

Para crear clústeres de GKE, te recomendamos que uses las imágenes predeterminadas del SO del contenedor para los modos Standard y Autopilot. Sin embargo, en el modo estándar, también puedes optar por usar otras imágenes disponibles, como Ubuntu.

Si usas Cluster Toolkit para implementar tu clúster, solo puedes usar imágenes de SO de contenedor, ya que estas son las imágenes integradas en los planos del clúster. Para obtener más información sobre cada imagen de nodo, consulta Imágenes de nodo en la documentación de GKE.

GKE también ofrece imágenes de contenedor de la capa de software de aprendizaje profundo (DLSL) que instalan paquetes como NVIDIA CUDA y NCCL, así como frameworks de AA como PyTorch, lo que proporciona un entorno listo para usar para las cargas de trabajo de aprendizaje profundo. Estas imágenes de contenedor de DLSL prediseñadas se probaron y verificaron para que funcionen sin problemas en los clústeres de GKE.

Imágenes de SO para clústeres de Compute Engine

AI Hypercomputer ofrece imágenes optimizadas para ejecutar cargas de trabajo de IA y AA con Compute Engine. Elige el SO con el que tienes más experiencia:

  • Acelerador de Rocky Linux 9
  • Acelerador de Rocky Linux 8
  • Acelerador de Ubuntu 24.04 LTS
  • Acelerador de LTS de Ubuntu 22.04

Si usas Cluster Toolkit, estas imágenes de acelerador ya se incluyen en los planos de Cluster Toolkit, ya que Cluster Toolkit crea imágenes personalizadas que extienden las imágenes del SO del acelerador de Ubuntu LTS.

Para obtener más información sobre cada imagen de SO, consulta Detalles del sistema operativo en la documentación de Compute Engine.

Cree su clúster

Después de revisar el proceso de creación del clúster y tomar decisiones preliminares para tu carga de trabajo, crea el clúster con una de las siguientes opciones: