Empezar a usar clústeres de entrenamiento

Si te interesan los clústeres de entrenamiento de Vertex AI, ponte en contacto con tu representante de ventas para obtener acceso.

Antes de desplegar tu primer clúster en clústeres de entrenamiento de Vertex AI, debes configurar tu proyecto y tu entorno deGoogle Cloud . Esta guía abarca todos los requisitos previos necesarios, que se dividen en tres categorías principales:

  • Acceso al proyecto: se obtiene acceso al servicio, que es solo por invitación.

  • Configuración de recursos: habilitar APIs y configurar los servicios de almacenamiento y de red de VPC necesarios.

  • Permisos de usuario: concede los roles de gestión de identidades y accesos necesarios para la gestión de clústeres y el acceso a recursos.

Si completas estos pasos, tu proyecto estará listo para implementarse correctamente.

Requisitos previos

Para usar clústeres de entrenamiento, debes hacer lo siguiente:

  1. Incluye tu proyecto en la lista de permitidos poniéndote en contacto con tu representante de ventas para obtener acceso.
  2. Obtener capacidad para clústeres de GPU en las regiones admitidas.
  3. Habilita las APIs necesarias, incluidas las APIs Compute Engine, Filestore, Cloud Storage, Lustre gestionado (opcional), Hypercomputer Configuration Service y Vertex AI.
  4. Configura la red. Para ello, asegúrate de que una red ya creada cumpla determinadas condiciones (por ejemplo, el acceso privado de Google o las reglas de cortafuegos) o crea una red y una subred de VPC.
  5. Configura el almacenamiento creando una instancia de Filestore zonal o regional que actúe como directorio /home y, opcionalmente, configura una Google Cloud instancia de Lustre gestionada.
  6. Concede permisos de gestión de identidades y accesos a los usuarios para gestionar clústeres, acceder al almacenamiento y acceder a los nodos del clúster mediante SSH, tal como se describe en la sección Permisos de gestión de identidades y accesos.

Regiones disponibles

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Permisos de gestión de identidades y accesos

  1. Concede el rol roles/aiplatform.admin a los usuarios que vayan a gestionar tus clústeres de entrenamiento.
  2. Asigna el rol roles/aiplatform.viewer a los usuarios que solo necesiten ver clústeres y sus configuraciones.
  3. Asigna los siguientes roles de gestión de identidades y accesos (IAM) al usuario o a la cuenta de servicio que gestionará (creará, eliminará y actualizará) los clústeres de entrenamiento gestionados:

    Nombre de función ID de rol
    Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1
    Escritor de registros roles/logging.logWriter
    Escritor de las métricas de supervisión roles/monitoring.metricWriter
    Usuario de cuenta de servicio roles/iam.serviceAccountUser
    Administrador de redes de servicio roles/servicenetworking.networksAdmin
  4. Para permitir que los nodos del clúster lean y escriban en segmentos de Cloud Storage mediante Google Cloud Storage FUSE, asigna el rol Usuario de objetos de Storage (roles/storage.objectUser) a la cuenta de servicio que usan las VMs.

  5. Para acceder a los nodos de inicio de sesión de Slurm mediante SSH, concede los siguientes permisos:

    Permisos Descripciones Finalidad
    Compute OS Login Inicia sesión en una VM como usuario estándar (no administrador). Si necesitas sudo, usa Inicio de sesión de administrador de SO de Compute. Conectarse mediante SSH al nodo de inicio de sesión implementado
    Usuario de túneles protegidos mediante IAP Acceso a los recursos de túneles que utilizan Identity-Aware Proxy. Conectarse mediante SSH al nodo de inicio de sesión implementado

Habilitar APIs

  1. Habilita la API de Google Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Habilita la red de servicios, ya que Filestore debe desplegarse antes de crear el clúster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Habilita la API de Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Habilita la API Lustre (si usas Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Habilita la API de HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Habilita la API de Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Habilita la API de Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Siguientes pasos

Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA o aprendizaje automático, ponte en contacto con tu representante de ventas.