Crea un clúster de Slurm completamente administrado con dos VMs A4

En esta guía de inicio rápido, se explica cómo crear un clúster de Slurm y conectarse a él con Cluster Director. El clúster que creas usa dos instancias de máquina virtual (VM) A4, que están diseñadas para ayudar a tu clúster de Slurm a controlar de manera eficiente las cargas de trabajo de inferencia y entrenamiento de modelos a gran escala.

Cluster Director es un servicio administrado que simplifica y automatiza la implementación de clústeres, lo que reduce la sobrecarga operativa y te permite enfocarte en ejecutar tu carga de trabajo. Si deseas tener más control sobre la implementación y la administración de tu clúster, crea un clúster de Slurm con Cluster Toolkit.


Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:

Guiarme


Antes de comenzar

  1. Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Habilita la API de Hypercompute Cluster, la API de Compute Engine, la API de Filestore, la API de Google Cloud Managed Lustre, la API de Cloud Logging y la API de Cloud Monitoring:

    Habilita las APIs
  7. Verifica que tu proyecto y la cuenta de servicio predeterminada de Compute Engine tengan los siguientes roles de Identity and Access Management (IAM):
  8. Si la organización en la que existe tu proyecto tiene una política de imágenes confiables (constraints/compute.trustedImageProjects), verifica que el proyecto clusterdirector-public-images esté incluido en la lista de proyectos permitidos. Para ver las políticas de imágenes confiables de tu organización, consulta Configura restricciones de acceso a imágenes.

Costos

En esta guía de inicio rápido, se usan los siguientes recursos Google Cloud facturables:

  • Compute Engine:

    • Dos VMs con tipos de máquinas A4

    • Un volumen de disco persistente para el nodo de acceso de Slurm con 100 GB

    • Un volumen de Hyperdisk Balanced de Google Cloud con 100 GB para las VMs A4

  • Filestore: Una instancia de Filestore con 10 TiB (10,240 GiB)

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.

Crea un clúster de Slurm

Para crear un clúster de Slurm, completa los siguientes pasos:

  1. En la consola de Google Cloud , ve a la página Cluster Director.

    Ir a Cluster Director

  2. Haz clic en Crear un clúster.

  3. En el diálogo que aparece, haz clic en Configuración paso a paso. Aparecerá la página Crear clúster.

  4. En el campo Nombre del clúster, ingresa cluster001.

  5. En la sección Proceso, haz clic en Configurar recursos. En el panel Agregar configuración de recursos que aparece, completa los siguientes pasos:

    1. En la lista Tipo de GPU, selecciona NVIDIA B200 180 GB.

    2. En el campo Cantidad de instancias, ingresa 2.

    3. En la sección Opciones de consumo, selecciona la opción de consumo que quieras usar para obtener recursos.

    4. En la sección Ubicación, especifica la región y la zona en las que deseas crear tus VMs de A4 o en las que existe la reserva que deseas usar para crear tus VMs.

    5. Haz clic en Listo.

  6. En el menú de navegación, haz clic en Almacenamiento.

  7. En la sección Almacenamiento, haz clic en Editar configuración de almacenamiento. En el panel Agregar configuración de almacenamiento que aparece, completa los siguientes pasos:

    1. En la sección Capacidad, selecciona De 10 a 100 TiB, con incrementos de 2.5 TiB.

    2. Haz clic en Listo.

  8. Haz clic en Crear. Aparecerá la página Clústeres.

    La creación del clúster puede tardar un tiempo en completarse. El tiempo de finalización depende de la cantidad de VMs que solicites y de la disponibilidad de recursos en la zona de las VMs. Si los recursos que solicitaste no están disponibles, Cluster Director mantiene la solicitud de creación hasta que los recursos estén disponibles.

Ve la solicitud de creación del clúster

Para revisar la solicitud de creación del clúster, completa los siguientes pasos:

  1. En la tabla Clústeres, en la columna Nombre, haz clic en cluster001. Aparecerá una página con los detalles del clúster y se seleccionará la pestaña Detalles.

  2. En la sección Compute, busca la fila Estado. Cuando AI Hypercomputer establezca su valor en Listo, puedes continuar con la siguiente sección.

Conéctate a tu clúster a través de SSH

Para conectarte a tu clúster a través de SSH, completa los siguientes pasos:

  1. Haz clic en la pestaña Nodos.

  2. En la tabla Nodos de acceso, busca la fila que contiene el nodo cluster001-login-001. En esa fila, en la columna Conectar, haz clic en el botón SSH. Aparecerá la ventana SSH en el navegador.

  3. Si se te solicita, haz clic en Autorizar. La conexión a tu clúster puede tardar un tiempo en completarse. Cuando la terminal esté lista, continúa con la siguiente sección.

Ejecuta trabajos de muestra

En la ventana SSH en el navegador, completa los siguientes pasos:

  1. Para verificar que Slurm esté en ejecución, ejecuta el siguiente comando:

    sinfo
    
  2. Para enviar un trabajo de prueba que devuelva el nombre de host del nodo, ejecuta el siguiente comando:

    srun hostname
    
  3. Para enviar un trabajo por lotes que se suspende durante 30 segundos, ejecuta el siguiente comando:

    sbatch --wrap="sleep 30"
    
  4. Para verificar el estado de los trabajos en la cola, ejecuta el siguiente comando:

    squeue
    
  5. Para ver los datos de contabilidad de los trabajos, ejecuta el siguiente comando:

    sacct
    

Creaste correctamente un clúster de Slurm, te conectaste a él y ejecutaste trabajos de muestra. Si AI Hypercomputer aún no creó las VMs de A4, puedes esperar a que el clúster cree las VMs, modificar el clúster para agregar o quitar VMs, o borrar el clúster para evitar cargos innecesarios.

Realiza una limpieza

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra tu proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra el clúster

Para borrar el clúster y los recursos asociados que creaste como parte de esta guía de inicio rápido, completa los siguientes pasos:

  1. En la página que contiene los detalles de tu clúster, haz clic en Borrar.

  2. En el diálogo que aparece, ingresa cluster001 y, luego, haz clic en Borrar para confirmar.

¿Qué sigue?