En esta página, se describe cómo crear un clúster de Slurm de computación de alto rendimiento (HPC) que usa acceso directo a memoria remota (RDMA) con VMs H4D con capacidades mejoradas de administración de clústeres. Usarás gcloud CLI y Cluster Toolkit para configurar el clúster.
La serie de máquinas H4D está diseñada específicamente para satisfacer las necesidades de las cargas de trabajo exigentes de HPC. H4D ofrece instancias con escalabilidad mejorada de la carga de trabajo a través de las herramientas de redes de Cloud RDMA con una capacidad de procesamiento de 200 Gbps. Para obtener más información sobre los tipos de máquinas H4D optimizados para procesamiento en Google Cloud, consulta la serie de máquinas H4D.
. Una vez que se apruebe, esta capacidad se agregará a tu Google Cloud proyecto. El proceso de aprobación de la capacidad puede tardar varios días.Antes de comenzar
Antes de crear un clúster de Slurm, si aún no lo hiciste, completa los siguientes pasos:
- Elige una opción de consumo: La opción que elijas determina cómo deseas obtener y usar los recursos de CPU virtual.
- Obtén capacidad: Obtén capacidad para la opción de consumo seleccionada.
- Verifica que tengas suficiente cuota de capacidad de Filestore: Debes tener suficiente
cuota de Filestore en tu región de destino antes de la implementación. La capacidad mínima requerida depende de los tipos de máquinas de tu clúster:
- A4X Max, A4X, A4, A3 Ultra y A3 Mega: Requiere un mínimo de 10 TiB (10,240 GiB) de capacidad HIGH_SCALE_SSD (zonal).
- A3 High: Requiere un mínimo de 2.5 TiB (2,560 GiB) de capacidad BASIC_SSD (estándar).
Para verificar la cuota o solicitar un aumento de cuota, consulta lo siguiente:
- Para verificar la cuota en tu proyecto, consulta Cómo ver la cuota específica de una API.
- Si no tienes suficiente cuota, entonces solicita un aumento de la cuota.
- Instala Cluster Toolkit: Para aprovisionar clústeres de Slurm, debes usar la versión
Cluster Toolkit
v1.62.0o una posterior.Para instalar Cluster Toolkit, consulta Configura Cluster Toolkit.
Para obtener más información, consulta Elige una opción de consumo y obtén capacidad.
En la Google Cloud consola, activa Cloud Shell.
En la parte inferior de la Google Cloud consola, se inicia una sesión de Cloud Shell en la que se muestra una ventana de línea de comandos. Cloud Shell es un entorno de shell con Google Cloud CLI ya instalada y con valores ya establecidos para el proyecto actual. La sesión puede tardar unos segundos en inicializarse.
Configura un bucket de almacenamiento
Los planos de clústeres usan módulos de Terraform para aprovisionar la infraestructura de nube. Una práctica recomendada cuando se trabaja con Terraform es almacenar el estado de forma remota en un archivo habilitado para la versión. En Google Cloud, puedes crear un bucket de Cloud Storage que tenga habilitado el control de versiones.
Para crear este bucket y habilitar el control de versiones desde la CLI, ejecuta los siguientes comandos:
gcloud storage buckets create gs://BUCKET_NAME \
--project=PROJECT_ID \
--default-storage-class=STANDARD --location=BUCKET_REGION \
--uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
Reemplaza lo siguiente:
BUCKET_NAME: Es un nombre para tu bucket de Cloud Storage que cumple con los requisitos de nombres de buckets.PROJECT_ID: ID del proyectoBUCKET_REGION: cualquier ubicación disponible.
Abre el directorio de Cluster Toolkit
Ejecuta el siguiente comando para asegurarte de que estás en el directorio de Cluster Toolkit:
cd cluster-toolkit
Esta implementación de clúster requiere Cluster Toolkit v1.70.0 o una versión posterior. Para verificar tu versión, puedes ejecutar el siguiente comando:
./gcluster --version
Crea un archivo de implementación
Crea un archivo de implementación para especificar el bucket de Cloud Storage, establecer nombres para tu red y subred, y establecer variables de implementación, como el ID del proyecto, la región y la zona.
Para crear un archivo de implementación, sigue los pasos para el tipo de máquina H4D:
Los parámetros que debes agregar a tu archivo de implementación dependen de la opción de consumo que uses para tu implementación. Selecciona la pestaña que corresponda a la opción de consumo que deseas usar.
Con reserva
Para crear tu archivo de implementación, usa un editor de texto para crear un archivo YAML llamado
h4d-slurm-deployment.yaml y agrega el siguiente contenido.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_reservation_name: RESERVATION_NAME
Reemplaza lo siguiente:
BUCKET_NAME: Es el nombre de tu bucket de Cloud Storage, que creaste en la sección anterior.DEPLOYMENT_NAME: Es un nombre para tu implementación. Si creas varios clústeres, asegúrate de seleccionar un nombre único para cada uno.PROJECT_ID: ID del proyectoREGION: Es la región que tiene las máquinas reservadas.ZONE: Es la zona en la que deseas aprovisionar el clúster. Si usas una opción de consumo basada en reservas, tu equipo de cuentas proporcionó la información de la región y la zona cuando se entregó la capacidad.NUMBER_OF_VMS: Es la cantidad de VMs que deseas para el clúster.RESERVATION_NAME: Es el nombre de tu reserva.
Inicio flexible
Para crear tu archivo de implementación, usa un editor de texto para crear un archivo YAML llamado
h4d-slurm-deployment.yaml y agrega el siguiente contenido.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_dws_flex_enabled: true
Reemplaza lo siguiente:
BUCKET_NAME: Es el nombre de tu bucket de Cloud Storage, que creaste en la sección anterior.DEPLOYMENT_NAME: Es un nombre para tu implementación. Si creas varios clústeres, asegúrate de seleccionar un nombre único para cada uno.PROJECT_ID: ID del proyectoREGION: Es la región en la que deseas aprovisionar tu clúster.ZONE: Es la zona en la que deseas aprovisionar tu clúster.NUMBER_OF_VMS: Es la cantidad de VMs que deseas para el clúster.
Esta implementación aprovisiona nodos de procesamiento estáticos,
lo que significa que el clúster tiene una cantidad establecida de nodos en todo momento. Si deseas habilitar el ajuste de escala automático de tu
clúster, usa el archivo examples/h4d/hpc-slurm-h4d.yaml y edita los valores de
node_count_static y node_count_dynamic_max para que coincidan con lo siguiente:
node_count_static: 0
node_count_dynamic_max: $(vars.h4d_cluster_size)
Spot
Para crear tu archivo de implementación, usa un editor de texto para crear un archivo YAML llamado
h4d-slurm-deployment.yaml y agrega el siguiente contenido.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_enable_spot_vm: true
Reemplaza lo siguiente:
BUCKET_NAME: Es el nombre de tu bucket de Cloud Storage, que creaste en la sección anterior.DEPLOYMENT_NAME: Es un nombre para tu implementación. Si creas varios clústeres, asegúrate de seleccionar un nombre único para cada uno.PROJECT_ID: ID del proyectoREGION: Es la región en la que deseas aprovisionar tu clúster.ZONE: Es la zona en la que deseas aprovisionar tu clúster.NUMBER_OF_VMS: Es la cantidad de VMs que deseas para el clúster.
Aprovisiona un clúster de Slurm H4D
Cluster Toolkit aprovisiona el clúster en función del archivo de implementación que creaste en el paso anterior y el esquema del clúster predeterminado. Para obtener más información sobre el software que instala el plano, consulta más información sobre las imágenes personalizadas de Slurm.
Con Cloud Shell, desde el directorio en el que instalaste Cluster Toolkit y creaste el archivo de implementación, puedes aprovisionar el clúster con el siguiente comando, que usa el archivo de plano de Slurm H4D. Este paso tarda aproximadamente entre 20 y 30 minutos.
./gcluster deploy -d h4d-slurm-deployment.yaml examples/hpc-slurm-h4d/hpc-slurm-h4d.yaml --auto-approve
Conéctate al clúster de Slurm
Para acceder a tu clúster, debes acceder al nodo de acceso de Slurm. Para acceder, puedes usar la consola o Google Cloud CLI. Google Cloud
Console
Ve a la página Compute Engine > Instancias de VM.
Busca el nodo de acceso. Debe tener un nombre con el patrón
DEPLOYMENT_NAME+login-001.En la columna Conectar del nodo de acceso, haz clic en SSH.
gcloud
Para conectarte al nodo de acceso, completa los siguientes pasos:
Identifica el nodo de acceso con el
gcloud compute instances listcomando.gcloud compute instances list \ --zones=
ZONE\ --filter="name ~ login" --format "value(name)"Si el resultado muestra varios clústeres de Slurm, puedes identificar tu nodo de acceso con el
DEPLOYMENT_NAMEque especificaste.Usa el
gcloud compute sshcomando para conectarte al nodo de acceso.gcloud compute ssh LOGIN_NODE \ --zone=
ZONE--tunnel-through-iapReemplaza lo siguiente:
ZONE: Es la zona en la que se encuentran las VMs de tu clúster.LOGIN_NODE: Es el nombre del nodo de acceso, que identificaste en el paso anterior.
Volver a implementar el clúster de Slurm
Si necesitas aumentar la cantidad de nodos de procesamiento o agregar particiones nuevas a tu clúster, es posible que debas actualizar las configuraciones de tu clúster de Slurm volviendo a realizar la implementación.
Para volver a implementar el clúster con una imagen existente, haz lo siguiente:
Ejecuta el siguiente comando:
./gcluster deploy -d h4d-slurm-deployment.yaml examples/h4d/h4d-slurm-deployment.yaml --only cluster-env,cluster --auto-approve -w
Este comando es solo para las implementaciones en las que ya existe una imagen. Solo vuelve a implementar el clúster y su infraestructura.
Destruye el clúster de Slurm
Para quitar el clúster de Slurm y las instancias que contiene, completa los siguientes pasos:
Desconéctate del clúster si aún no lo hiciste.
Antes de ejecutar el comando destroy, navega a la raíz del directorio de Cluster Toolkit. De forma predeterminada, DEPLOYMENT_FOLDER se encuentra en la raíz del directorio de Cluster Toolkit.
Para destruir el clúster, ejecuta lo siguiente:
./gcluster destroy DEPLOYMENT_FOLDER --auto-approve
Reemplaza lo siguiente:
DEPLOYMENT_FOLDER: Es el nombre de la carpeta de implementación. Por lo general, es igual a DEPLOYMENT_NAME.
Cuando se complete la eliminación del clúster, deberías ver un mensaje similar al siguiente:
Destroy complete! Resources: xx destroyed.
Para obtener información sobre cómo destruir la infraestructura de forma limpia y obtener instrucciones avanzadas de implementación manual, consulta la carpeta de implementación ubicada en la raíz del directorio de Cluster Toolkit: DEPLOYMENT_FOLDER/instructions.txt
¿Qué sigue?
- Verifica el consumo de la reserva
- Cómo ver la topología de las VMs
- Administra los eventos del host en todas las VMs
- Administra los eventos del host en todas las reservas
- Supervisa las VMs en tu clúster de Slurm
- Cómo informar un host defectuoso