Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crea un clúster de Slurm completamente administrado para cargas de trabajo de IA

En este documento, se explica cómo configurar y, luego, implementar un clúster de Slurm completamente administrado que usa tipos de máquinas A4X, A4, A3 Ultra, A3 Mega o A3 High. Para obtener más información sobre estos tipos de máquinas optimizados para aceleradores, consulta Tipos de máquinas con GPU.

En los pasos de este documento, se muestra cómo crear un clúster de Slurm con Cluster Director. Cluster Director es un producto de Google Cloudque automatiza la configuración de clústeres de Slurm. Está diseñado para administradores de TI e investigadores de IA que desean evitar la sobrecarga de administrar un clúster y enfocarse en ejecutar sus cargas de trabajo. Si deseas tener más control sobre la implementación y la administración de tu clúster, créalo con Cluster Toolkit.

Limitaciones

Según el tipo de máquina que usen las instancias de Compute Engine en tu clúster, se aplican las siguientes limitaciones:

A4X

No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexible para las instancias que usen este tipo de máquina.
Solo puedes crear instancias en ciertas regiones y zonas.
No puedes usar Persistent Disk (regional o zonal). Solo puedes usar Google Cloud Hyperdisk.
Este tipo de máquina solo está disponible en la plataforma NVIDIA Grace.
Los cambios de tipo de máquina no son compatibles con A4X. Para cambiar a este tipo de máquina o desde él, debes crear una instancia nueva.
No puedes ejecutar sistemas operativos Windows en este tipo de máquina. Para obtener una lista de los sistemas operativos de Linux compatibles, consulta los sistemas operativos compatibles con las instancias de GPU.
En el caso de las instancias A4X, cuando usas ethtool -S para supervisar la conexión en red de la GPU, no se actualizan los contadores de puertos físicos que terminan en _phy. Este es el comportamiento esperado para las instancias que usan la arquitectura de función virtual (VF) de MRDMA. Para obtener más información, consulta Funciones de MRDMA y herramientas de supervisión de redes.
Las instancias de A4X no admiten lo siguiente:
No puedes conectar discos Hyperdisk ML creados antes del 4 de febrero de 2026 a tipos de máquinas A4X.

A4

No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexible para las instancias que usan un tipo de máquina A4.
Solo puedes usar un tipo de máquina A4 en ciertas regiones y zonas.
No puedes usar Persistent Disk (regional o zonal). Solo puedes usar Google Cloud Hyperdisk.
El tipo de máquina A4 solo está disponible en la plataforma de CPU Emerald Rapids.
No puedes cambiar el tipo de máquina de una instancia a un tipo de máquina A4 ni desde este. Debes crear una instancia nueva con este tipo de máquina.
Los tipos de máquinas A4 no admiten usuarios únicos.
No puedes ejecutar sistemas operativos Windows en un tipo de máquina A4.
En el caso de las instancias A4, cuando usas ethtool -S para supervisar la conexión en red de la GPU, no se actualizan los contadores de puertos físicos que terminan en _phy. Este es el comportamiento esperado para las instancias que usan la arquitectura de función virtual (VF) de MRDMA. Para obtener más información, consulta Funciones de MRDMA y herramientas de supervisión de redes.
No puedes conectar discos Hyperdisk ML creados antes del 4 de febrero de 2026 a tipos de máquinas A4.

A3 Ultra

No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexible para las instancias que usan un tipo de máquina A3 ultra.
Solo puedes usar un tipo de máquina A3 ultra en ciertas regiones y zonas.
No puedes usar Persistent Disk (regional o zonal). Solo puedes usar Google Cloud Hyperdisk.
El tipo de máquina A3 Ultra solo está disponible en la plataforma de CPU Emerald Rapids.
No se admiten cambios de tipo de máquina para el tipo de máquina A3 Ultra. Para cambiar a este tipo de máquina o desde él, debes crear una instancia nueva.
No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 Ultra.
Los tipos de máquinas A3 Ultra no admiten usuarios únicos.
En el caso de las instancias de A3 Ultra, cuando usas ethtool -S para supervisar las redes de GPU, no se actualizan los contadores de puertos físicos que terminan en _phy. Este es el comportamiento esperado para las instancias que usan la arquitectura de función virtual (VF) de MRDMA. Para obtener más información, consulta Funciones de MRDMA y herramientas de supervisión de redes.

A3 Mega

No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexible para las instancias que usan un tipo de máquina Mega A3.
Solo puedes usar un tipo de máquina A3 Mega en ciertas regiones y zonas.
No puedes usar Persistent Disk regional en una instancia que usa un tipo de máquina A3 Mega.
El tipo de máquina A3 Mega solo está disponible en la plataforma de CPU Sapphire Rapids.
Los cambios de tipo de máquina no se admiten para el tipo de máquina A3 Mega. Para cambiar a este tipo de máquina o desde él, debes crear una instancia nueva.
No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 Mega.

A3 High

No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexible para las instancias que usan un tipo de máquina A3 High.
Solo puedes usar un tipo de máquina A3 High en ciertas regiones y zonas.
No puedes usar Persistent Disk regional en una instancia que usa un tipo de máquina A3 High.
El tipo de máquina A3 High solo está disponible en la plataforma de CPU Sapphire Rapids.
No se admiten cambios de tipo de máquina para el tipo de máquina A3 High. Para cambiar a este tipo de máquina o desde él, debes crear una instancia nueva.
No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 High.
Solo puedes usar a3-highgpu-8g. No se admite el tipo de máquina A3 High con menos de 8 GPUs.

Antes de comenzar

Antes de crear un clúster de Slurm, si aún no lo hiciste, completa los siguientes pasos:

Elige una opción de consumo: La opción de consumo que elijas determinará cómo obtendrás y usarás los recursos de GPU. Para obtener más información, consulta Elige una opción de consumo.
Obtén capacidad: El proceso para obtener capacidad difiere para cada opción de consumo. Para obtener información sobre el proceso para obtener capacidad para la opción de consumo que elegiste, consulta Descripción general de la capacidad.
Verifica que tienes suficiente cuota de capacidad de Filestore: Debes tener suficiente cuota de Filestore en tu región objetivo antes de la implementación. La capacidad mínima requerida depende de los tipos de máquinas de tu clúster:
- A4X Max, A4X, A4, A3 Ultra y A3 Mega: Requiere un mínimo de 10 TiB (10,240 GiB) de capacidad HIGH_SCALE_SSD (zonal).
- A3 High: Requiere un mínimo de 2.5 TiB (2,560 GiB) de capacidad de BASIC_SSD (estándar).
Para verificar la cuota o solicitar un aumento, consulta lo siguiente:
- Para verificar la cuota de tu proyecto, consulta Cómo ver la cuota específica de una API.
- Si no tienes suficiente cuota, solicita un aumento de la cuota.
Verifica la política de imágenes confiables: Si la organización en la que existe tu proyecto tiene una política de imágenes confiables (constraints/compute.trustedImageProjects), verifica que el proyecto clusterdirector-public-images esté incluido en la lista de proyectos permitidos. Para obtener más información, consulta Configura políticas de imágenes confiables.

Roles obligatorios

Para crear un clúster de Slurm, necesitas los siguientes roles y permisos de IAM:

Si quieres obtener los permisos que necesitas para completar esta guía de inicio rápido, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
- Para crear y administrar un clúster: Editor de Cluster Director (roles/hypercomputecluster.editor)
- Para crear y administrar VMs en un clúster, usa el rol de Administrador de instancias de Compute (v1) (roles/compute.instanceAdmin.v1).
- Para conectarte al nodo de acceso en un clúster, haz lo siguiente:
  - Acceso al SO de Compute (roles/compute.osLogin)
  - Usuario de túnel protegido con IAP (roles/iap.tunnelResourceAccessor)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Si quieres obtener los permisos que necesitas para completar esta guía de inicio rápido, pídele a tu administrador que te otorgue los siguientes roles de IAM en la cuenta de servicio predeterminada de Compute Engine:
- Para crear un clúster, necesitas el rol de Usuario de cuentas de servicio (roles/iam.serviceAccountUser).
- Para administrar recursos en un clúster, haz lo siguiente:
  - Escritor de registros (roles/logging.logWriter)
  - Escritor de métricas de Monitoring (roles/monitoring.metricWriter)
  - Visualizador de objetos de Storage (roles/storage.objectViewer)

Crea un clúster de Slurm

Para crear un clúster optimizado para IA con Cluster Director, completa los siguientes pasos:

Configura los parámetros de configuración de los recursos de procesamiento
Configurar red
Configura los recursos de almacenamiento
Configura el entorno de Slurm

Configura los recursos de procesamiento

Para configurar los recursos de procesamiento cuando crees un clúster, completa los siguientes pasos:

En la consola de Google Cloud , ve a la página Cluster Director.

Ir a Cluster Director
Haz clic en Crear clúster.
En el diálogo que aparece, haz clic en Arquitectura de referencia. Se abrirá la página Crea un clúster.
Haz clic en una de las plantillas disponibles. De manera opcional, puedes editar la plantilla para adaptarla a las necesidades de tu carga de trabajo.
Haz clic en Personalizar.
En la sección Compute, en el campo Cluster name, ingresa un nombre para tu clúster. El nombre puede contener hasta 10 caracteres y solo puede usar números o letras minúsculas (a a z).
Para agregar información a la configuración preconfigurada del recurso de procesamiento o editar la cantidad y el tipo de instancias de procesamiento que especifica la configuración, haz lo siguiente:
1. En la sección Proceso, haz clic en Editar configuración de recursos. Aparecerá el panel Agregar configuración de recursos.
2. Opcional: Para cambiar el nombre de la configuración del recurso de procesamiento, ingresa un nombre nuevo en el campo Nombre.
3. Opcional: Para cambiar la cantidad y el tipo de instancias de procesamiento que usa tu clúster, en la sección Configuración de la máquina, sigue las indicaciones para actualizar los recursos de procesamiento.
4. En la sección Opciones de consumo, especifica la opción de consumo que deseas usar para obtener recursos:
  - Para crear instancias de procesamiento con una reserva, haz lo siguiente:
    1. Haz clic en la pestaña Usar reserva.
    2. Haz clic en Seleccionar reserva. Aparecerá el panel Elige una reserva. Si deseas usar una reserva de VMs A4X, puedes elegir de forma opcional el bloque o el sub-bloque para controlar la colocación de tus VMs.
    3. Selecciona la reserva que quieras usar. Luego, haz clic en Elegir. Esta acción establece automáticamente la región y la zona de tus recursos de procesamiento.
  - Para crear VMs de Flex-start, haz lo siguiente:
    1. Haz clic en la pestaña Flex start.
    2. En la sección Límite de tiempo para la VM, especifica la duración de ejecución de las instancias de procesamiento. El valor debe ser de entre 10 minutos y 7 días.
    3. En la sección Ubicación, selecciona la región en la que deseas crear VMs de inicio flexible. La consola deGoogle Cloud filtra automáticamente las regiones disponibles para mostrar solo aquellas que admiten VMs de inicio flexible para el tipo de máquina seleccionado.
  - Para crear VMs Spot, haz lo siguiente:
    1. Haz clic en la pestaña Usar spot.
    2. En la lista Cuando se finaliza la VM, selecciona una de las siguientes opciones:
      - Para borrar las VMs de Spot durante la interrupción, selecciona Borrar.
      - Para detener las VMs Spot durante la interrupción, selecciona Detener.
    3. En la sección Ubicación, selecciona la región y la zona en las que deseas crear VMs Spot. La consola deGoogle Cloud filtra automáticamente las regiones disponibles para mostrar solo aquellas que admiten VMs de instancias interrumpibles para el tipo de máquina seleccionado.
5. Haz clic en Listo.
6. Opcional: Para crear configuraciones de recursos de procesamiento adicionales para una partición, haz clic en Agregar configuración de recursos y, luego, sigue las indicaciones para especificar los recursos de procesamiento.
Haz clic en Continuar.

Configura la red

Para configurar la red que usa tu clúster, completa los siguientes pasos:

En la sección Elige una red de nube privada virtual (VPC), realiza una de las siguientes acciones:
- Recomendación: Para permitir que AI Hypercomputer cree automáticamente una red de VPC preconfigurada para tu clúster, haz lo siguiente:
  1. Selecciona Crear una red de VPC nueva.
  2. En el campo Nombre de la red, ingresa un nombre para la red de VPC.
- Para usar una red de VPC o de VPC compartida existente, haz lo siguiente:
  1. Selecciona Usar una red de VPC en el proyecto actual o Usar una red de VPC compartida alojada en otro proyecto.
  2. En la lista Selecciona una red de VPC o Red de VPC compartida, selecciona una red de VPC o de VPC compartida que cumpla con las configuraciones requeridas.
  3. En la lista Seleccionar subred, elige una subred existente.
Haz clic en Continuar.

Configura recursos de almacenamiento

Cuando creas un clúster a partir de una plantilla de Cluster Director, este configura automáticamente una instancia de Filestore o Managed Lustre como el recurso de almacenamiento para tu clúster.

Para agregar o editar de forma opcional los recursos de almacenamiento que usa tu clúster, en la sección Almacenamiento, completa los siguientes pasos. Para obtener más información sobre los servicios de almacenamiento que puedes configurar, consulta Servicios de almacenamiento compatibles con Cluster Director.

Opcional: Para editar un recurso de almacenamiento, haz clic en Editar plan de almacenamiento y, luego, sigue las instrucciones para actualizar la configuración del recurso de almacenamiento.
Opcional: Para agregar recursos de almacenamiento a tu clúster, haz clic en Agregar configuración de almacenamiento y, luego, sigue las instrucciones para especificar la configuración de los recursos de almacenamiento.

Para ver los servicios de almacenamiento disponibles que puedes configurar, consulta Servicios de almacenamiento compatibles con Cluster Director.
Haz clic en Continuar.

Configura el entorno de Slurm

Para configurar el entorno de Slurm en tu clúster, completa los siguientes pasos:

Opcional: Para editar la cantidad y el tipo de instancias de procesamiento que usa el nodo de acceso, expande la sección Nodo de acceso y, luego, sigue las indicaciones para actualizar los recursos de procesamiento.
Opcional: Para editar las particiones de tu clúster y organizar tus recursos de procesamiento, expande la sección Particiones y, luego, haz una de las siguientes acciones:
- Para agregar una partición, haz clic en Agregar partición y, luego, haz lo siguiente:
  1. En el campo Nombre de la partición, ingresa un nombre para la partición.
  2. Para editar un conjunto de nodos, haz clic en Toggle nodeset. De lo contrario, para agregar un conjunto de nodos, haz clic en Agregar conjunto de nodos.
  3. En el campo Nombre del conjunto de nodos, ingresa un nombre para tu conjunto de nodos.
  4. En el campo Configuración de recursos, selecciona una configuración de recursos de procesamiento que creaste en los pasos anteriores.
  5. En la lista Source image, selecciona una de las imágenes de SO compatibles con AI Hypercomputer.
  6. En el campo Recuento de nodos estáticos, ingresa la cantidad mínima de instancias de procesamiento que siempre deben estar en ejecución en el clúster.
  7. En el campo Cantidad de nodos dinámicos, ingresa la cantidad máxima de instancias de procesamiento a la que AI Hypercomputer puede aumentar el clúster durante los aumentos de tráfico.
    
    Importante: Si creas instancias de procesamiento en el conjunto de nodos con una reserva, en especial una reserva compartida, verifica que la reserva tenga suficientes recursos disponibles para crear la cantidad máxima especificada de instancias de procesamiento. Otras cargas de trabajo que usan la misma reserva pueden consumirla por completo y, por lo tanto, es posible que AI Hypercomputer no pueda crear más instancias de procesamiento en tu conjunto de nodos.
  8. En la lista Tipo de disco de arranque y el campo Tamaño del disco de arranque, ingresa el tipo y el tamaño del disco de arranque que usarán las instancias de procesamiento.
  9. Haz clic en Listo.
- Para quitar una partición, haz clic en Borrar partición.
Opcional: Para agregar scripts de prólogo o epílogo a tu entorno de Slurm, haz lo siguiente:
1. Expande la sección Configuración avanzada de la organización.
2. En la sección Guiones, sigue las indicaciones para agregar guiones.
Haz clic en Crear. Aparecerá la página Clústeres. La creación del clúster puede tardar un tiempo en completarse. El tiempo de finalización depende de la cantidad de instancias de procesamiento que solicites y de la disponibilidad de recursos en la zona de las instancias de procesamiento. Si los recursos que solicitaste no están disponibles, AI Hypercomputer mantiene la solicitud de creación hasta que los recursos estén disponibles. Para ver el estado de la operación de creación del clúster, consulta los detalles del clúster.

Conéctate al clúster de Slurm

Cuando AI Hypercomputer crea tu nodo de acceso, el estado del clúster cambia a Listo. Luego, puedes conectarte a tu clúster. Sin embargo, solo puedes ejecutar cargas de trabajo después de que AI Hypercomputer cree los nodos de procesamiento en el clúster.

Para conectarte al nodo de acceso de un clúster a través de SSH con la consola deGoogle Cloud , completa los siguientes pasos:

En la consola de Google Cloud , ve a la página Clústeres.

Ir a los clústeres
En la tabla Clústeres, en la columna Nombre, haz clic en el nombre del clúster que creaste en la sección anterior. Aparecerá una página con los detalles del clúster y se seleccionará la pestaña Detalles.
Haz clic en la pestaña Nodos.
En la sección Nodos de acceso, en la columna Conectar, busca el nodo de acceso del clúster, cuyo nombre es CLUSTER_NAME-login-001.
En la columna Conectar del nodo de acceso, haz clic en el botón SSH. Se abrirá la ventana SSH en el navegador.
Si se te solicita, haz clic en Autorizar. La conexión a tu nodo puede tardar hasta un minuto en completarse.

Nota: Si se producen errores cuando te conectas a tu nodo, consulta Soluciona problemas de SSH.

Verifica el estado del clúster de Slurm

Antes de ejecutar un trabajo en un nodo de procesamiento, Slurm ejecuta automáticamente una verificación rápida del estado de la GPU en el nodo. Si el nodo no pasa la verificación, Slurm lo vacía y evita que se programen trabajos nuevos en él.

Para probar de forma más exhaustiva el estado de la GPU y el ancho de banda de la red en los nodos de procesamiento de una partición del clúster, puedes ejecutar manualmente pruebas de la biblioteca de comunicaciones colectivas de NVIDIA (NCCL). Si una prueba de NCCL identifica nodos en mal estado, puedes repararlos o modificar el clúster. Las pruebas de NCCL te ayudan a verificar el estado de un clúster antes de ejecutar cargas de trabajo críticas. Para obtener más información, consulta Cómo verificar el estado del clúster.

Borra el clúster de Slurm

Para borrar un clúster de Slurm en tu proyecto, elige una de las siguientes opciones:

En la consola de Google Cloud , ve a la página Clústeres.

Ir a los clústeres
En la tabla Clústeres, en la columna Nombre, haz clic en el nombre del clúster que deseas borrar. Aparecerá una página con los detalles del clúster y se seleccionará la pestaña Detalles.
Haz clic en Borrar.
En el diálogo que aparece, ingresa el nombre de tu clúster y, luego, haz clic en Borrar para confirmar. Aparecerá la página Clústeres. La eliminación del clúster puede tardar en completarse.