Antes de implementar tu primer clúster en los clústeres de entrenamiento de Vertex AI, debes configurar tu Google Cloud proyecto y entorno. En esta guía, se abarcan todos los requisitos previos necesarios, que se dividen en tres categorías principales:
Acceso al proyecto: Obtener acceso al servicio, que es solo por invitación.
Configuración de recursos: Habilitar las APIs y configurar la red de VPC y los servicios de almacenamiento necesarios.
Permisos de usuario: Otorgar los roles de IAM necesarios para la administración de clústeres y el acceso a los recursos.
Completar estos pasos prepara tu proyecto para una implementación exitosa.
Requisitos previos
Para usar clústeres de entrenamiento, debes hacer lo siguiente:
- Incluir tu proyecto en la lista de entidades permitidas comunicándote con tu representante de ventas para obtener acceso.
- Obtener capacidad para clústeres de GPU en regiones admitidas.
- Habilitar las APIs necesarias, incluidas las APIs de Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service, y Vertex AI.
- Configurar la red asegurándote de que una red existente cumpla con condiciones específicas (por ejemplo, Acceso privado a Google, reglas de firewall) o creando una red de VPC y una subred nuevas.
- Configurar el almacenamiento creando una instancia de Filestore zonal o regional
para que actúe como el directorio
/homey, de manera opcional, configurar una Google Cloud instancia de Lustre administrada. - Otorgar permisos de IAM a los usuarios para la administración de clústeres, el acceso al almacenamiento y el acceso SSH a los nodos del clúster, como se describe en la sección Permisos de IAM.
Regiones admitidas
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Permisos de IAM
- Otorga el rol
roles/aiplatform.admina los usuarios que administrarán tus clústeres de entrenamiento. - Otorga el rol
roles/aiplatform.viewera los usuarios que solo necesitan ver los clústeres y sus configuraciones. Otorga los siguientes roles de IAM al usuario o la cuenta de servicio que administrará (creará, borrará y actualizará) los clústeres de entrenamiento administrados:
Nombre del rol ID de función Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1Escritor de registros roles/logging.logWriterEscritor de métricas de Monitoring roles/monitoring.metricWriterUsuario de cuenta de servicio roles/iam.serviceAccountUserAdministrador de Service Networking roles/servicenetworking.networksAdminPara permitir que los nodos del clúster lean y escriban en buckets de Cloud Storage con Cloud Storage FUSE, otorga el rol Usuario de objetos de almacenamiento (
roles/storage.objectUser) a la cuenta de servicio que usan las VMs.Para el acceso SSH a los nodos de acceso de Slurm, otorga los siguientes permisos:
Permisos Descripciones Objetivo Acceso al SO de Compute Accede a una VM como un usuario estándar (no administrador). Si se necesita sudo, usa Acceso de administrador al SO de Compute en su lugar.SSH al nodo de acceso implementado Usuario de túnel protegido con IAP Proporciona acceso a recursos túnel que usan Identity-Aware Proxy. SSH al nodo de acceso implementado
Habilita las APIs
Habilita la API de Compute Engine:
gcloud services enable compute.googleapis.comHabilita la red de servicios, ya que Filestore se debe implementar antes de crear el clúster.
gcloud services enable servicenetworking.googleapis.comHabilita la API de Cloud Storage:
gcloud services enable storage.googleapis.comHabilita la API de Lustre (si usas Lustre):
gcloud services enable lustre.googleapis.comHabilita la API de HCS:
gcloud services enable hypercomputecluster.googleapis.comHabilita la API de Vertex AI:
gcloud services enable aiplatform.googleapis.comHabilita la API de Cloud Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
¿Qué sigue?
Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA/ML, comunícate con tu representante de ventas.