Crea un clúster de Slurm completamente administrado con dos VMs A4
En esta guía de inicio rápido, se explica cómo crear un clúster de Slurm y conectarse a él con Cluster Director. El clúster que creas usa dos instancias de máquina virtual (VM) A4, que están diseñadas para ayudar a tu clúster de Slurm a controlar de manera eficiente las cargas de trabajo de inferencia y entrenamiento de modelos a gran escala.
Cluster Director es un servicio administrado que simplifica y automatiza la implementación de clústeres, lo que reduce la sobrecarga operativa y te permite enfocarte en ejecutar tu carga de trabajo. Si deseas tener más control sobre la implementación y la administración de tu clúster, crea un clúster de Slurm con Cluster Toolkit.
Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:
Antes de comenzar
- Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Habilita la API de Hypercompute Cluster, la API de Compute Engine, la API de Filestore, la API de Google Cloud Managed Lustre, la API de Cloud Logging y la API de Cloud Monitoring:
Habilita las APIs- Verifica que tu proyecto y la cuenta de servicio predeterminada de Compute Engine tengan los siguientes roles de Identity and Access Management (IAM):
-
Si quieres obtener los permisos que necesitas para completar esta guía de inicio rápido, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
-
Para crear y administrar un clúster:
Editor de Cluster Director (
roles/hypercomputecluster.editor) -
Para crear y administrar VMs en un clúster, usa el rol de Administrador de instancias de Compute (v1) (
roles/compute.instanceAdmin.v1). -
Para conectarte al nodo de acceso en un clúster, haz lo siguiente:
-
Acceso a SO de Compute (
roles/compute.osLogin) -
Usuario de túnel protegido con IAP (
roles/iap.tunnelResourceAccessor)
-
Acceso a SO de Compute (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
-
Para crear y administrar un clúster:
Editor de Cluster Director (
-
Si quieres obtener los permisos que necesitas para completar esta guía de inicio rápido, pídele a tu administrador que te otorgue los siguientes roles de IAM en la cuenta de servicio predeterminada de Compute Engine:
-
Para crear un clúster, haz lo siguiente:
Usuario de cuentas de servicio (
roles/iam.serviceAccountUser) -
Para administrar recursos en un clúster, haz lo siguiente:
-
Escritor de registros (
roles/logging.logWriter) -
Escritor de métricas de Monitoring (
roles/monitoring.metricWriter) -
Visualizador de objetos de Storage (
roles/storage.objectViewer)
-
Escritor de registros (
-
Para crear un clúster, haz lo siguiente:
Usuario de cuentas de servicio (
-
- Si la organización en la que existe tu proyecto tiene una política de imágenes confiables (
constraints/compute.trustedImageProjects), verifica que el proyectoclusterdirector-public-imagesesté incluido en la lista de proyectos permitidos. Para ver las políticas de imágenes confiables de tu organización, consulta Configura restricciones de acceso a imágenes.
Costos
En esta guía de inicio rápido, se usan los siguientes recursos Google Cloud facturables:
Compute Engine:
Dos VMs con tipos de máquinas A4
Un volumen de disco persistente para el nodo de acceso de Slurm con 100 GB
Un volumen de Hyperdisk Balanced de Google Cloud con 100 GB para las VMs A4
Filestore: Una instancia de Filestore con 10 TiB (10,240 GiB)
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Crea un clúster de Slurm
Para crear un clúster de Slurm, completa los siguientes pasos:
En la consola de Google Cloud , ve a la página Cluster Director.
Haz clic en Crear un clúster.
En el diálogo que aparece, haz clic en Configuración paso a paso. Aparecerá la página Crear clúster.
En el campo Nombre del clúster, ingresa
cluster001.En la sección Proceso, haz clic en Configurar recursos. En el panel Agregar configuración de recursos que aparece, completa los siguientes pasos:
En la lista Tipo de GPU, selecciona NVIDIA B200 180 GB.
En el campo Cantidad de instancias, ingresa
2.En la sección Opciones de consumo, selecciona la opción de consumo que quieras usar para obtener recursos.
En la sección Ubicación, especifica la región y la zona en las que deseas crear tus VMs de A4 o en las que existe la reserva que deseas usar para crear tus VMs.
Haz clic en Listo.
En el menú de navegación, haz clic en Almacenamiento.
En la sección Almacenamiento, haz clic en Editar configuración de almacenamiento. En el panel Agregar configuración de almacenamiento que aparece, completa los siguientes pasos:
En la sección Capacidad, selecciona De 10 a 100 TiB, con incrementos de 2.5 TiB.
Haz clic en Listo.
Haz clic en Crear. Aparecerá la página Clústeres.
La creación del clúster puede tardar un tiempo en completarse. El tiempo de finalización depende de la cantidad de VMs que solicites y de la disponibilidad de recursos en la zona de las VMs. Si los recursos que solicitaste no están disponibles, Cluster Director mantiene la solicitud de creación hasta que los recursos estén disponibles.
Ve la solicitud de creación del clúster
Para revisar la solicitud de creación del clúster, completa los siguientes pasos:
En la tabla Clústeres, en la columna Nombre, haz clic en cluster001. Aparecerá una página con los detalles del clúster y se seleccionará la pestaña Detalles.
En la sección Compute, busca la fila Estado. Cuando AI Hypercomputer establezca su valor en Listo, puedes continuar con la siguiente sección.
Conéctate a tu clúster a través de SSH
Para conectarte a tu clúster a través de SSH, completa los siguientes pasos:
Haz clic en la pestaña Nodos.
En la tabla Nodos de acceso, busca la fila que contiene el nodo cluster001-login-001. En esa fila, en la columna Conectar, haz clic en el botón SSH. Aparecerá la ventana SSH en el navegador.
Si se te solicita, haz clic en Autorizar. La conexión a tu clúster puede tardar un tiempo en completarse. Cuando la terminal esté lista, continúa con la siguiente sección.
Ejecuta trabajos de muestra
En la ventana SSH en el navegador, completa los siguientes pasos:
Para verificar que Slurm esté en ejecución, ejecuta el siguiente comando:
sinfoPara enviar un trabajo de prueba que devuelva el nombre de host del nodo, ejecuta el siguiente comando:
srun hostnamePara enviar un trabajo por lotes que se suspende durante 30 segundos, ejecuta el siguiente comando:
sbatch --wrap="sleep 30"Para verificar el estado de los trabajos en la cola, ejecuta el siguiente comando:
squeuePara ver los datos de contabilidad de los trabajos, ejecuta el siguiente comando:
sacct
Creaste correctamente un clúster de Slurm, te conectaste a él y ejecutaste trabajos de muestra. Si AI Hypercomputer aún no creó las VMs de A4, puedes esperar a que el clúster cree las VMs, modificar el clúster para agregar o quitar VMs, o borrar el clúster para evitar cargos innecesarios.
Realiza una limpieza
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Borra tu proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, sigue estos pasos:
- En la Google Cloud consola, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra el clúster
Para borrar el clúster y los recursos asociados que creaste como parte de esta guía de inicio rápido, completa los siguientes pasos:
En la página que contiene los detalles de tu clúster, haz clic en Borrar.
En el diálogo que aparece, ingresa
cluster001y, luego, haz clic en Borrar para confirmar.