Descripción general de la creación de clústeres

En este documento, se resume cómo crear un clúster para tus cargas de trabajo de IA en AI Hypercomputer. En particular, este documento te guía por el proceso y las decisiones que debes tomar cuando inicias un clúster.

Antes de comenzar

  • Debes tener una carga de trabajo preexistente que quieras admitir.

  • Debes estar familiarizado con la terminología de uso común para las cargas de trabajo de IA y AA, como el entrenamiento y la inferencia de modelos.

Iniciar un clúster

Para iniciar un clúster, debes seguir estos pasos:

  1. Determina tu carga de trabajo y elige un tipo de máquina
  2. Elige una opción de consumo y obtén capacidad
  3. Elige una opción de implementación
  4. Elige un organizador
  5. Elige el sistema operativo y la imagen de clúster
  6. Crea tu clúster
  7. Aprovisiona almacenamiento para tu carga de trabajo

Determina tu carga de trabajo y elige un tipo de máquina

Selecciona un tipo de máquina para tu carga de trabajo de IA. AI Hypercomputer admite la creación de clústeres con las series de máquinas A4X Max, A4X, A4 y A3. Ten en cuenta las siguientes recomendaciones para el uso de máquinas:

Para obtener información detallada sobre cada serie de máquinas, consulta Tipos de máquinas con GPU. Para obtener información detallada sobre las recomendaciones de cargas de trabajo para cada máquina, consulta Configuraciones recomendadas.

Elige una opción de consumo y obtén capacidad

Elige una opción de consumo para tus recursos de GPU con base en la disponibilidad de tu carga de trabajo y el tipo de máquina elegido. Por ejemplo, para usar los tipos de máquinas A4X Max o A4X, debes reservar capacidad para una fecha y hora específicas con el modelo de consumo de reservas futuras. En las siguientes opciones, se resumen los modelos de consumo:

  • Reservas futuras: Disponibles para los tipos de máquinas A4X Max, A4X, A4 y A3 Ultra, con asignación de recursos densa y hasta un 53% de descuento para CPU virtuales y GPUs. Las reservas futuras son ideales para las cargas de trabajo que requieren estabilidad durante un período prolongado, como el entrenamiento previo de modelos de base o la inferencia de modelos de base de varios hosts. Para usar esta opción de consumo, debes solicitar capacidad a través de tu equipo de cuentas para una fecha y hora de inicio futuras.

  • Reservas futuras en modo de calendario: Disponibles para los tipos de máquinas A4, A3 Ultra, A3 Mega y A3 High (solo VMs de 8 GPUs), con asignación de recursos densa y hasta un 53% de descuento para CPU virtuales y GPUs. Las reservas futuras en modo de calendario te ayudan a reservar recursos para cargas de trabajo que se ejecutan por hasta 90 días y requieren estabilidad, como el entrenamiento previo o el ajuste de modelos. Sin embargo, para usar esta opción de consumo, debes crear una solicitud de reserva para reservar recursos en una fecha y hora futuras, y Google Cloud debes aprobar tu solicitud.

  • Inicio flexible: Disponible para todos los tipos de máquinas con GPU, excepto A4X Max y A4X. El inicio flexible te permite crear clústeres densos de corta duración que duran hasta siete días y tienen descuentos de hasta un 53% para CPU virtuales y GPUs para tipos de máquinas A2 y posteriores. Puedes crear clústeres de inicio flexible directamente a través de Compute Engine, Cluster Director, Cluster Toolkit o GKE. Sin embargo, los clústeres no están disponibles de inmediato; Google los crea en cuanto los recursos están disponibles.

  • Spot: Disponible para todos los tipos de máquinas con GPU, excepto A4X Max y A4X. Las VMs Spot te permiten crear recursos de procesamiento de inmediato según la disponibilidad; sin embargo, Compute Engine puede interrumpir las máquina virtual (VM) en cualquier momento. Las VMs Spot tienen el mayor descuento posible en Compute Engine (entre el 61% y el 90%).

Para obtener más información sobre las opciones de consumo, consulta Comparación de opciones de consumo.

Elige una opción de implementación

Según el nivel de control que necesites sobre la implementación de tu clúster, elige entre una implementación altamente administrada o una menos administrada que te brinde más control sobre tu infraestructura.

Altamente administrado

Si quieres que Google implemente y configure tu infraestructura, usa Cluster Director, Cluster Toolkit o GKE.

  • Cluster Director: Es un Google Cloud producto que automatiza la configuración compleja de los clústeres y te ayuda a configurar recursos de procesamiento, redes y almacenamiento para tus clústeres con el objetivo de maximizar el rendimiento y minimizar los tiempos de inactividad. Cluster Director está diseñado para administradores de TI y investigadores de IA que desean evitar la sobrecarga de administrar un clúster y, en cambio, enfocarse en ejecutar sus cargas de trabajo.

  • Cluster Toolkit: Es una herramienta de código abierto que ofrece Google y que simplifica la configuración y la implementación de clústeres para GKE o Compute Engine. Usas planos predefinidos para implementar configuraciones comunes, como tipos de máquinas A4 con Slurm. Puedes modificar los planos para personalizar las implementaciones y tu pila de software.

  • GKE: Es un servicio de Kubernetes administrado y una plataforma de organización de contenedores de código abierto. GKE ofrece funciones como el ajuste de escala automático y la alta disponibilidad. También puede organizar aplicaciones alojadas en contenedores, admitir hardware especializado y es compatible con el Google Cloud ecosistema, lo que lo hace adecuado para implementar y administrar cargas de trabajo de IA o AA. Puedes implementar clústeres de GKE directamente o con Cluster Toolkit. Puedes elegir entre el modo GKE Standard o Autopilot.

Menos administrado, más control

Para obtener un control más detallado sobre tus clústeres y el software instalado en ellos, crea un clúster de Compute Engine con grupos de instancias administrados (MIGs) de Compute Engine o crea instancias de forma masiva. Luego, instala de forma manual cualquier software clave que necesites en las instancias.

Elige un organizador

Un organizador automatiza la administración de tus clústeres. Con un organizador, no tienes que administrar cada instancia de procesamiento del clúster. Un orquestador, como Slurm o GKE, gestiona tareas como la puesta en cola de trabajos, la asignación de recursos, el escalado automático (en el caso de GKE) y otras tareas diarias de administración de clústeres.

  • Slurm: Slurm es un organizador de código abierto que se usa de uso frecuente para cargas de trabajo de HPC, IA, o AA. Para usar Slurm, puedes usar Cluster Toolkit (que ofrece planos de clúster que instalan Slurm automáticamente en tus clústeres) o puedes instalar Slurm de forma manual en un clúster de Compute Engine.

  • GKE: GKE es un servicio administrado que se basa en Kubernetes, una plataforma de organización de contenedores de código abierto. GKE es ideal para implementar y administrar cargas de trabajo de IA o AA, debido a su capacidad para organizar aplicaciones alojadas en contenedores, su compatibilidad con hardware especializado y su lugar en el Google Cloud ecosistema. Puedes implementar clústeres de GKE directamente o con Cluster Toolkit.

  • Trae tu propio organizador: Si quieres usar otros organizadores, debes usarlos en tus clústeres de Compute Engine. Sin embargo, crear un clúster de Compute Engine es la opción menos administrada que se ofrece en Google Cloud. Esta opción significa que eres responsable de configurar, mantener y actualizar tus instancias.

Elige la imagen del sistema operativo

Según si usas GKE o Compute Engine, selecciona una imagen que contenga el sistema operativo seleccionado, como Container-Optimized OS para clústeres de GKE o una imagen de SO del acelerador para clústeres de Compute Engine. Además, también puedes seleccionar una imagen de Deep Learning Software Layer (DSLS) para tus contenedores.

Para obtener información detallada, revisa las imágenes de AI Hypercomputer.

Imágenes para clústeres de GKE

Para crear clústeres de GKE, te recomendamos que uses las imágenes de SO de contenedor predeterminadas para los modos Standard y Autopilot. Sin embargo, en el modo Standard, también puedes elegir usar otras imágenes disponibles, como Ubuntu.

Si usas Cluster Toolkit para implementar tu clúster, solo puedes usar imágenes de SO de contenedor, ya que son las imágenes integradas en los planos del clúster. Para obtener más información sobre cada imagen de nodo, consulta Imágenes denodo en la documentación de GKE.

GKE también ofrece imágenes de contenedor de Deep Learning Software Layer (DLSL) que instalan paquetes como CUDA de NVIDIA y NCCL, así como frameworks de AA como PyTorch, lo que proporciona un entorno listo para usar para cargas de trabajo de aprendizaje profundo. Estas imágenes de contenedor de DLSL precompiladas se prueban y verifican para que funcionen sin problemas en clústeres de GKE.

Imágenes de SO para clústeres de Compute Engine

AI Hypercomputer ofrece imágenes optimizadas para ejecutar cargas de trabajo de IA y AA con Compute Engine. Elige el SO con el que estés más familiarizado:

  • Acelerador con Rocky Linux 9
  • Acelerador con Rocky Linux 8
  • Acelerador con Ubuntu 24.04 LTS
  • Acelerador con Ubuntu 22.04 LTS

Si usas Cluster Toolkit, estas imágenes de aceleradores ya están agrupadas en los planos de Cluster Toolkit, ya que Cluster Toolkit crea imágenes personalizadas que extienden las imágenes de SO del acelerador con Ubuntu LTS.

Para obtener más información sobre cada imagen de SO, consulta Detalles del sistema operativo en la documentación de Compute Engine.

Crea tu clúster

Después de revisar el proceso de creación de clústeres y tomar decisiones preliminares para tu carga de trabajo, crea tu clúster con una de las siguientes opciones:

Aprovisiona almacenamiento para tu carga de trabajo

Elige un servicio de almacenamiento para aprovisionar, según los requisitos de rendimiento, costo y arquitectura de almacenamiento.