Comienza a usar clústeres de entrenamiento

Si te interesan los clústeres de entrenamiento de Vertex AI, comunícate con tu representante de ventas para obtener acceso.

Antes de implementar tu primer clúster en los clústeres de entrenamiento de Vertex AI, debes configurar tu Google Cloud proyecto y entorno. En esta guía, se abarcan todos los requisitos previos necesarios, que se dividen en tres categorías principales:

  • Acceso al proyecto: Obtener acceso al servicio, que es solo por invitación.

  • Configuración de recursos: Habilitar las APIs y configurar la red de VPC y los servicios de almacenamiento necesarios.

  • Permisos de usuario: Otorgar los roles de IAM necesarios para la administración de clústeres y el acceso a los recursos.

Completar estos pasos prepara tu proyecto para una implementación exitosa.

Requisitos previos

Para usar clústeres de entrenamiento, debes hacer lo siguiente:

  1. Incluir tu proyecto en la lista de entidades permitidas comunicándote con tu representante de ventas para obtener acceso.
  2. Obtener capacidad para clústeres de GPU en regiones admitidas.
  3. Habilitar las APIs necesarias, incluidas las APIs de Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service, y Vertex AI.
  4. Configurar la red asegurándote de que una red existente cumpla con condiciones específicas (por ejemplo, Acceso privado a Google, reglas de firewall) o creando una red de VPC y una subred nuevas.
  5. Configurar el almacenamiento creando una instancia de Filestore zonal o regional para que actúe como el directorio /home y, de manera opcional, configurar una Google Cloud instancia de Lustre administrada.
  6. Otorgar permisos de IAM a los usuarios para la administración de clústeres, el acceso al almacenamiento y el acceso SSH a los nodos del clúster, como se describe en la sección Permisos de IAM.

Regiones admitidas

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Permisos de IAM

  1. Otorga el rol roles/aiplatform.admin a los usuarios que administrarán tus clústeres de entrenamiento.
  2. Otorga el rol roles/aiplatform.viewer a los usuarios que solo necesitan ver los clústeres y sus configuraciones.
  3. Otorga los siguientes roles de IAM al usuario o la cuenta de servicio que administrará (creará, borrará y actualizará) los clústeres de entrenamiento administrados:

    Nombre del rol ID de función
    Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1
    Escritor de registros roles/logging.logWriter
    Escritor de métricas de Monitoring roles/monitoring.metricWriter
    Usuario de cuenta de servicio roles/iam.serviceAccountUser
    Administrador de Service Networking roles/servicenetworking.networksAdmin
  4. Para permitir que los nodos del clúster lean y escriban en buckets de Cloud Storage con Cloud Storage FUSE, otorga el rol Usuario de objetos de almacenamiento (roles/storage.objectUser) a la cuenta de servicio que usan las VMs.

  5. Para el acceso SSH a los nodos de acceso de Slurm, otorga los siguientes permisos:

    Permisos Descripciones Objetivo
    Acceso al SO de Compute Accede a una VM como un usuario estándar (no administrador). Si se necesita sudo, usa Acceso de administrador al SO de Compute en su lugar. SSH al nodo de acceso implementado
    Usuario de túnel protegido con IAP Proporciona acceso a recursos túnel que usan Identity-Aware Proxy. SSH al nodo de acceso implementado

Habilita las APIs

  1. Habilita la API de Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Habilita la red de servicios, ya que Filestore se debe implementar antes de crear el clúster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Habilita la API de Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Habilita la API de Lustre (si usas Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Habilita la API de HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Habilita la API de Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Habilita la API de Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

¿Qué sigue?

Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA/ML, comunícate con tu representante de ventas.