Comienza a usar clústeres de entrenamiento

Si te interesan los clústeres de entrenamiento de Vertex AI, comunícate con tu representante de ventas para obtener acceso.

Antes de implementar tu primer clúster en los clústeres de entrenamiento de Vertex AI, debes configurar tuGoogle Cloud proyecto y entorno. En esta guía, se abarcan todos los requisitos previos necesarios, que se dividen en tres categorías principales:

  • Acceso al proyecto: Obtener acceso al servicio, que es solo por invitación

  • Configuración de recursos: Habilita las APIs y configura los servicios de almacenamiento y de red de VPC necesarios.

  • Permisos del usuario: Otorga los roles de IAM necesarios para la administración del clúster y el acceso a los recursos.

Completar estos pasos prepara tu proyecto para una implementación exitosa.

Requisitos previos

Para usar clústeres de entrenamiento, debes hacer lo siguiente:

  1. Incluye tu proyecto en la lista de proyectos permitidos comunicándote con tu representante de ventas para obtener acceso.
  2. Obtén capacidad para los clústeres con GPU en las regiones admitidas.
  3. Habilita las APIs necesarias, incluidas las de Compute Engine, Filestore, Cloud Storage, Lustre administrado (opcional), Hypercomputer Configuration Service y Vertex AI.
  4. Configura la red. Para ello, asegúrate de que una red existente cumpla con condiciones específicas (por ejemplo, Acceso privado a Google, reglas de firewall) o crea una nueva red y subred de VPC.
  5. Configura el almacenamiento creando una instancia de Filestore zonal o regional para que actúe como el directorio /home y, de manera opcional, configura una Google Cloud instancia de Lustre administrada.
  6. Otorga permisos de IAM a los usuarios para la administración del clúster, el acceso al almacenamiento y el acceso SSH a los nodos del clúster, como se describe en la sección Permisos de IAM.

Regiones admitidas

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Permisos de IAM

  1. Otorga el rol roles/aiplatform.admin a los usuarios que administrarán tus clústeres de entrenamiento.
  2. Otorga el rol de roles/aiplatform.viewer a los usuarios que solo necesitan ver los clústeres y sus configuraciones.
  3. Otorga los siguientes roles de IAM a la cuenta de usuario o de servicio que administrará (creará, borrará y actualizará) los clústeres de entrenamiento administrado:

    Nombre del rol ID de función
    Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1
    Escritor de registros roles/logging.logWriter
    Escritor de métricas de Monitoring roles/monitoring.metricWriter
    Usuario de cuenta de servicio roles/iam.serviceAccountUser
    Administrador de Service Networking roles/servicenetworking.networksAdmin
  4. Para permitir que los nodos del clúster lean y escriban en buckets de Cloud Storage con Google Cloud Storage FUSE, otorga el rol de usuario de objetos de almacenamiento (roles/storage.objectUser) a la cuenta de servicio que usan las VMs.

  5. Para acceder a los nodos de acceso de Slurm a través de SSH, otorga los siguientes permisos:

    Permisos Descripciones Objetivo
    Acceso a SO de Compute Accede a una VM como usuario estándar (no administrador). Si se necesita sudo, usa Acceso de administrador al SO de Compute en su lugar. Establece una conexión SSH al nodo de acceso implementado
    Usuario de túnel protegido con IAP Tiene acceso a recursos de túnel que usan Identity-Aware Proxy. Establece una conexión SSH al nodo de acceso implementado

Habilita las APIs

  1. Habilita la API de Google Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Habilita la red de servicios, ya que Filestore debe implementarse antes de crear el clúster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Habilita la API de Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Habilita la API de Lustre (si usas Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Habilita la API de HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Habilita la API de Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Habilita la API de Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

¿Qué sigue?

Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA/AA, comunícate con tu representante de ventas.