Antes de implementar tu primer clúster en los clústeres de entrenamiento de Vertex AI, debes configurar tuGoogle Cloud proyecto y entorno. En esta guía, se abarcan todos los requisitos previos necesarios, que se dividen en tres categorías principales:
Acceso al proyecto: Obtener acceso al servicio, que es solo por invitación
Configuración de recursos: Habilita las APIs y configura los servicios de almacenamiento y de red de VPC necesarios.
Permisos del usuario: Otorga los roles de IAM necesarios para la administración del clúster y el acceso a los recursos.
Completar estos pasos prepara tu proyecto para una implementación exitosa.
Requisitos previos
Para usar clústeres de entrenamiento, debes hacer lo siguiente:
- Incluye tu proyecto en la lista de proyectos permitidos comunicándote con tu representante de ventas para obtener acceso.
- Obtén capacidad para los clústeres con GPU en las regiones admitidas.
- Habilita las APIs necesarias, incluidas las de Compute Engine, Filestore, Cloud Storage, Lustre administrado (opcional), Hypercomputer Configuration Service y Vertex AI.
- Configura la red. Para ello, asegúrate de que una red existente cumpla con condiciones específicas (por ejemplo, Acceso privado a Google, reglas de firewall) o crea una nueva red y subred de VPC.
- Configura el almacenamiento creando una instancia de Filestore zonal o regional para que actúe como el directorio
/homey, de manera opcional, configura una Google Cloud instancia de Lustre administrada. - Otorga permisos de IAM a los usuarios para la administración del clúster, el acceso al almacenamiento y el acceso SSH a los nodos del clúster, como se describe en la sección Permisos de IAM.
Regiones admitidas
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Permisos de IAM
- Otorga el rol
roles/aiplatform.admina los usuarios que administrarán tus clústeres de entrenamiento. - Otorga el rol de
roles/aiplatform.viewera los usuarios que solo necesitan ver los clústeres y sus configuraciones. Otorga los siguientes roles de IAM a la cuenta de usuario o de servicio que administrará (creará, borrará y actualizará) los clústeres de entrenamiento administrado:
Nombre del rol ID de función Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1Escritor de registros roles/logging.logWriterEscritor de métricas de Monitoring roles/monitoring.metricWriterUsuario de cuenta de servicio roles/iam.serviceAccountUserAdministrador de Service Networking roles/servicenetworking.networksAdminPara permitir que los nodos del clúster lean y escriban en buckets de Cloud Storage con Google Cloud Storage FUSE, otorga el rol de usuario de objetos de almacenamiento (
roles/storage.objectUser) a la cuenta de servicio que usan las VMs.Para acceder a los nodos de acceso de Slurm a través de SSH, otorga los siguientes permisos:
Permisos Descripciones Objetivo Acceso a SO de Compute Accede a una VM como usuario estándar (no administrador). Si se necesita sudo, usa Acceso de administrador al SO de Compute en su lugar.Establece una conexión SSH al nodo de acceso implementado Usuario de túnel protegido con IAP Tiene acceso a recursos de túnel que usan Identity-Aware Proxy. Establece una conexión SSH al nodo de acceso implementado
Habilita las APIs
Habilita la API de Google Compute Engine:
gcloud services enable compute.googleapis.comHabilita la red de servicios, ya que Filestore debe implementarse antes de crear el clúster.
gcloud services enable servicenetworking.googleapis.comHabilita la API de Cloud Storage:
gcloud services enable storage.googleapis.comHabilita la API de Lustre (si usas Lustre):
gcloud services enable lustre.googleapis.comHabilita la API de HCS:
gcloud services enable hypercomputecluster.googleapis.comHabilita la API de Vertex AI:
gcloud services enable aiplatform.googleapis.comHabilita la API de Cloud Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
¿Qué sigue?
Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA/AA, comunícate con tu representante de ventas.